論文の概要: CAGAN: Text-To-Image Generation with Combined Attention GANs
- arxiv url: http://arxiv.org/abs/2104.12663v1
- Date: Mon, 26 Apr 2021 15:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:32:05.182959
- Title: CAGAN: Text-To-Image Generation with Combined Attention GANs
- Title(参考訳): CAGAN:Attention GANを併用したテキスト・ツー・イメージ生成
- Authors: Henning Schulze and Dogucan Yaman and Alexander Waibel
- Abstract要約: テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
- 参考スコア(独自算出の注目度): 70.3497683558609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating images according to natural language descriptions is a challenging
task. In this work, we propose the Combined Attention Generative Adversarial
Network (CAGAN) to generate photo-realistic images according to textual
descriptions. The proposed CAGAN utilises two attention models: word attention
to draw different sub-regions conditioned on related words; and
squeeze-and-excitation attention to capture non-linear interaction among
channels. With spectral normalisation to stabilise training, our proposed CAGAN
improves the state of the art on the IS and FID on the CUB dataset and the FID
on the more challenging COCO dataset. Furthermore, we demonstrate that judging
a model by a single evaluation metric can be misleading by developing an
additional model adding local self-attention which scores a higher IS,
outperforming the state of the art on the CUB dataset, but generates
unrealistic images through feature repetition.
- Abstract(参考訳): 自然言語の記述に従って画像を生成することは難しい課題である。
本研究では,テキスト記述に基づく写真リアルな画像を生成するためのCAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案するcaganは2つの注意モデルを用いている: 関連する単語に基づいて異なるサブ領域を描画する単語注意、チャネル間の非線形相互作用を捉えるための押し出しおよび押出し注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
さらに,1つの評価基準によるモデル判断は,高得点の局所的自己注意を付加した追加モデルを開発することで誤解を招く可能性があることを実証し,特徴反復による非現実的な画像を生成する。
関連論文リスト
- Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。
そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。
この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文 参考訳(メタデータ) (2024-08-29T03:12:04Z) - CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation [9.493755431645313]
そこで本研究では,集中型および視覚的接地型キャプションをサンプリングするための,新しい完全自動手法を提案する。
抽象的意味表現(AMR)を利用して、エンティティ間のすべての意味・意味関係を符号化する。
次に、SSAに分散したデータセットから制御信号を出力する新しいモデルCIC-BART-SSAを開発する。
論文 参考訳(メタデータ) (2024-07-16T05:26:12Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Localized Text-to-Image Generation for Free via Cross Attention Control [154.06530917754515]
提案手法は, 推論中のクロスアテンションマップを簡易に制御することで, 局所的な生成が可能であることを示す。
提案するクロスアテンション制御(CAC)は,標準のテキスト・ツー・イメージモデルに対して,新たなオープン語彙のローカライズ機能を提供する。
論文 参考訳(メタデータ) (2023-06-26T12:15:06Z) - Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。
M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-26T17:58:39Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - SegAttnGAN: Text to Image Generation with Segmentation Attention [6.561007033994183]
本稿では,テキスト・ツー・イメージ合成タスクに新たなセグメンテーション情報を利用する新しい生成ネットワーク(SegAttnGAN)を提案する。
モデルに導入されたセグメンテーションデータは、ジェネレータトレーニングの有用なガイダンスを提供するため、提案モデルでは、より優れたリアリズム品質の画像を生成することができる。
論文 参考訳(メタデータ) (2020-05-25T23:56:41Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。