論文の概要: CAGAN: Text-To-Image Generation with Combined Attention GANs
- arxiv url: http://arxiv.org/abs/2104.12663v1
- Date: Mon, 26 Apr 2021 15:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:32:05.182959
- Title: CAGAN: Text-To-Image Generation with Combined Attention GANs
- Title(参考訳): CAGAN:Attention GANを併用したテキスト・ツー・イメージ生成
- Authors: Henning Schulze and Dogucan Yaman and Alexander Waibel
- Abstract要約: テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
- 参考スコア(独自算出の注目度): 70.3497683558609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating images according to natural language descriptions is a challenging
task. In this work, we propose the Combined Attention Generative Adversarial
Network (CAGAN) to generate photo-realistic images according to textual
descriptions. The proposed CAGAN utilises two attention models: word attention
to draw different sub-regions conditioned on related words; and
squeeze-and-excitation attention to capture non-linear interaction among
channels. With spectral normalisation to stabilise training, our proposed CAGAN
improves the state of the art on the IS and FID on the CUB dataset and the FID
on the more challenging COCO dataset. Furthermore, we demonstrate that judging
a model by a single evaluation metric can be misleading by developing an
additional model adding local self-attention which scores a higher IS,
outperforming the state of the art on the CUB dataset, but generates
unrealistic images through feature repetition.
- Abstract(参考訳): 自然言語の記述に従って画像を生成することは難しい課題である。
本研究では,テキスト記述に基づく写真リアルな画像を生成するためのCAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案するcaganは2つの注意モデルを用いている: 関連する単語に基づいて異なるサブ領域を描画する単語注意、チャネル間の非線形相互作用を捉えるための押し出しおよび押出し注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
さらに,1つの評価基準によるモデル判断は,高得点の局所的自己注意を付加した追加モデルを開発することで誤解を招く可能性があることを実証し,特徴反復による非現実的な画像を生成する。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - A Comparative Study of Pre-trained CNNs and GRU-Based Attention for
Image Caption Generation [9.490898534790977]
本稿では,GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワークを提案する。
提案手法では,複数の事前学習された畳み込みニューラルネットワークをエンコーダとして,画像から特徴を抽出し,文を生成するデコーダとしてGRUベースの言語モデルを用いる。
論文 参考訳(メタデータ) (2023-10-11T07:30:01Z) - Localized Text-to-Image Generation for Free via Cross Attention Control [154.06530917754515]
提案手法は, 推論中のクロスアテンションマップを簡易に制御することで, 局所的な生成が可能であることを示す。
提案するクロスアテンション制御(CAC)は,標準のテキスト・ツー・イメージモデルに対して,新たなオープン語彙のローカライズ機能を提供する。
論文 参考訳(メタデータ) (2023-06-26T12:15:06Z) - Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。
M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-26T17:58:39Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - SegAttnGAN: Text to Image Generation with Segmentation Attention [6.561007033994183]
本稿では,テキスト・ツー・イメージ合成タスクに新たなセグメンテーション情報を利用する新しい生成ネットワーク(SegAttnGAN)を提案する。
モデルに導入されたセグメンテーションデータは、ジェネレータトレーニングの有用なガイダンスを提供するため、提案モデルでは、より優れたリアリズム品質の画像を生成することができる。
論文 参考訳(メタデータ) (2020-05-25T23:56:41Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。