論文の概要: Cross-Modal Contrastive Learning for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2101.04702v3
- Date: Tue, 30 Mar 2021 19:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:43:09.403861
- Title: Cross-Modal Contrastive Learning for Text-to-Image Generation
- Title(参考訳): テキスト対画像生成のためのクロスモーダルコントラスト学習
- Authors: Han Zhang, Jing Yu Koh, Jason Baldridge, Honglak Lee, Yinfei Yang
- Abstract要約: XMC-GAN(Cross-Modal Contrastive Generative Adversarial Network)
XMC-GANは、強いテキスト画像対応を強制する注意深い自己変調生成器と、批評家として機能する対照的識別器を使用します。
XMC-GANの出力の品質は、以前のモデルから大きく向上した。
- 参考スコア(独自算出の注目度): 62.34141416143907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The output of text-to-image synthesis systems should be coherent, clear,
photo-realistic scenes with high semantic fidelity to their conditioned text
descriptions. Our Cross-Modal Contrastive Generative Adversarial Network
(XMC-GAN) addresses this challenge by maximizing the mutual information between
image and text. It does this via multiple contrastive losses which capture
inter-modality and intra-modality correspondences. XMC-GAN uses an attentional
self-modulation generator, which enforces strong text-image correspondence, and
a contrastive discriminator, which acts as a critic as well as a feature
encoder for contrastive learning. The quality of XMC-GAN's output is a major
step up from previous models, as we show on three challenging datasets. On
MS-COCO, not only does XMC-GAN improve state-of-the-art FID from 24.70 to 9.33,
but--more importantly--people prefer XMC-GAN by 77.3 for image quality and 74.1
for image-text alignment, compared to three other recent models. XMC-GAN also
generalizes to the challenging Localized Narratives dataset (which has longer,
more detailed descriptions), improving state-of-the-art FID from 48.70 to
14.12. Lastly, we train and evaluate XMC-GAN on the challenging Open Images
data, establishing a strong benchmark FID score of 26.91.
- Abstract(参考訳): テキスト・ツー・イメージ合成システムの出力は、条件付きテキスト記述に対して、セマンティックな忠実度の高いコヒーレントでクリアでフォトリアリスティックなシーンでなければならない。
XMC-GAN(Cross-Modal Contrastive Generative Adversarial Network)は,画像とテキスト間の相互情報を最大化する。
これは、モダリティ間およびモダリティ内対応をキャプチャする複数の対照的な損失によって行われる。
XMC-GANは、強いテキストイメージ対応を強制する注目の自己変調ジェネレータと、コントラスト学習のための特徴エンコーダと同様に、批評家として機能するコントラスト識別器を使用する。
XMC-GANの出力の品質は、3つの挑戦的なデータセットで示すように、以前のモデルから大きく向上している。
MS-COCOでは、XMC-GANは24.70から9.33までの最先端のFIDを改善するだけでなく、画像品質は77.3で、画像テキストアライメントは74.1である。
XMC-GANはまた、挑戦的なLocalized Narrativesデータセット(より長い詳細記述を持つ)に一般化し、最先端のFIDを48.70から14.12に改善した。
最後に、挑戦的なOpen Imagesデータに基づいてXMC-GANをトレーニングし、評価し、26.91の強力なベンチマークFIDスコアを確立する。
関連論文リスト
- A Picture is Worth a Thousand Words: Principled Recaptioning Improves
Image Generation [9.552642210681489]
コーパスを特別な自動キャプションモデルで再現し、再カプセル化データセット上でテキスト・ツー・イメージモデルを訓練することにより、モデルがボード全体に大きなメリットをもたらすことを示す。
我々は、コーパスを緩和する様々な方法を分析し、この手法がRECAPと呼ばれ、どちらも列車の干渉の相違を低減し、例ごとにより多くの情報を提供するという証拠を提供する。
論文 参考訳(メタデータ) (2023-10-25T14:10:08Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - GR-GAN: Gradual Refinement Text-to-image Generation [15.99543073122574]
本稿では, この問題を効果的に緩和するために, GR-GAN(Gradual Refinement Generative Adversarial Network)を提案する。
GRGモジュールは、対応するテキスト制約で低解像度から高解像度の画像を生成するように設計されている。
ITMモジュールは、文-画像レベルと単語-領域レベルの両方で画像-テキスト整合損失を提供するように設計されている。
論文 参考訳(メタデータ) (2022-05-23T12:42:04Z) - CoCa: Contrastive Captioners are Image-Text Foundation Models [41.759438751996505]
Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-04T07:01:14Z) - Extreme Zero-Shot Learning for Extreme Text Classification [80.95271050744624]
極端ゼロショットXMC (EZ-XMC) とフーショットXMC (FS-XMC) について検討した。
自己教師付きコントラスト損失のあるトランスフォーマーベースのエンコーダの事前訓練を提案する。
我々は,多スケール適応クラスタリング,ラベル正規化,擬陽性ペアによる自己学習などの手法を用いて,生テキストを徹底的に活用する事前学習手法MACLRを開発した。
論文 参考訳(メタデータ) (2021-12-16T06:06:42Z) - Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T06:43:31Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。