Fugu-MT 論文翻訳(概要): CAGAN: Text-To-Image Generation with Combined Attention GANs

論文の概要: CAGAN: Text-To-Image Generation with Combined Attention GANs

arxiv url: http://arxiv.org/abs/2104.12663v1
Date: Mon, 26 Apr 2021 15:46:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-27 14:32:05.182959
Title: CAGAN: Text-To-Image Generation with Combined Attention GANs
Title（参考訳）: CAGAN:Attention GANを併用したテキスト・ツー・イメージ生成
Authors: Henning Schulze and Dogucan Yaman and Alexander Waibel
Abstract要約: テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
参考スコア（独自算出の注目度）: 70.3497683558609
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating images according to natural language descriptions is a challenging task. In this work, we propose the Combined Attention Generative Adversarial Network (CAGAN) to generate photo-realistic images according to textual descriptions. The proposed CAGAN utilises two attention models: word attention to draw different sub-regions conditioned on related words; and squeeze-and-excitation attention to capture non-linear interaction among channels. With spectral normalisation to stabilise training, our proposed CAGAN improves the state of the art on the IS and FID on the CUB dataset and the FID on the more challenging COCO dataset. Furthermore, we demonstrate that judging a model by a single evaluation metric can be misleading by developing an additional model adding local self-attention which scores a higher IS, outperforming the state of the art on the CUB dataset, but generates unrealistic images through feature repetition.
Abstract（参考訳）: 自然言語の記述に従って画像を生成することは難しい課題である。本研究では,テキスト記述に基づく写真リアルな画像を生成するためのCAGAN(Combined Attention Generative Adversarial Network)を提案する。提案するcaganは2つの注意モデルを用いている: 関連する単語に基づいて異なるサブ領域を描画する単語注意、チャネル間の非線形相互作用を捉えるための押し出しおよび押出し注意である。スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。さらに,1つの評価基準によるモデル判断は,高得点の局所的自己注意を付加した追加モデルを開発することで誤解を招く可能性があることを実証し,特徴反復による非現実的な画像を生成する。

関連論文リスト

Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data [39.17652541259225]
Composed Image Retrieval (CIR)は、テキストに付加された参照画像と一致する画像を取得するタスクである。画像とテキストのモダリティを効果的に組み合わせた埋め込み型再構成アーキテクチャを提案する。 InstructCIRというモデルでは、CIRRおよびFashionIQデータセット上のゼロショット合成画像検索において、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-04-01T14:03:46Z)
Beyond RNNs: Benchmarking Attention-Based Image Captioning Models [0.0]
本研究は、RNNに基づくアプローチに対して、注意に基づく画像キャプションモデルの性能をベンチマークする。画像特徴と生成されたキャプションのアライメントを高めるためのバハダナウアテンションの有効性を評価する。その結果,注目に基づくモデルは,より正確で意味的にリッチなキャプションを生成する上で,RNNよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-26T01:05:18Z)
Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文参考訳（メタデータ） (2024-08-29T03:12:04Z)
CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation [9.493755431645313]
そこで本研究では,集中型および視覚的接地型キャプションをサンプリングするための,新しい完全自動手法を提案する。抽象的意味表現(AMR)を利用して、エンティティ間のすべての意味・意味関係を符号化する。次に、SSAに分散したデータセットから制御信号を出力する新しいモデルCIC-BART-SSAを開発する。
論文参考訳（メタデータ） (2024-07-16T05:26:12Z)
Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文参考訳（メタデータ） (2024-05-08T03:13:20Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Localized Text-to-Image Generation for Free via Cross Attention Control [154.06530917754515]
提案手法は, 推論中のクロスアテンションマップを簡易に制御することで, 局所的な生成が可能であることを示す。提案するクロスアテンション制御(CAC)は,標準のテキスト・ツー・イメージモデルに対して,新たなオープン語彙のローカライズ機能を提供する。
論文参考訳（メタデータ） (2023-06-26T12:15:06Z)
Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。 M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-26T17:58:39Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
SegAttnGAN: Text to Image Generation with Segmentation Attention [6.561007033994183]
本稿では,テキスト・ツー・イメージ合成タスクに新たなセグメンテーション情報を利用する新しい生成ネットワーク(SegAttnGAN)を提案する。モデルに導入されたセグメンテーションデータは、ジェネレータトレーニングの有用なガイダンスを提供するため、提案モデルでは、より優れたリアリズム品質の画像を生成することができる。
論文参考訳（メタデータ） (2020-05-25T23:56:41Z)
High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文参考訳（メタデータ） (2020-03-18T12:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。