論文の概要: Improving Text-to-Image Synthesis Using Contrastive Learning
- arxiv url: http://arxiv.org/abs/2107.02423v1
- Date: Tue, 6 Jul 2021 06:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 23:33:30.224681
- Title: Improving Text-to-Image Synthesis Using Contrastive Learning
- Title(参考訳): コントラスト学習によるテキスト・画像合成の改善
- Authors: Hui Ye, Xiulong Yang, Martin Takac, Rajshekhar Sunderraman, Shihao Ji
- Abstract要約: 本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 4.850820365312369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of text-to-image synthesis is to generate a visually realistic image
that matches a given text description. In practice, the captions annotated by
humans for the same image have large variance in terms of contents and the
choice of words. The linguistic discrepancy between the captions of the
identical image leads to the synthetic images deviating from the ground truth.
To address this issue, we propose a contrastive learning approach to improve
the quality and enhance the semantic consistency of synthetic images. In the
pre-training stage, we utilize the contrastive learning approach to learn the
consistent textual representations for the captions corresponding to the same
image. Furthermore, in the following stage of GAN training, we employ the
contrastive learning method to enhance the consistency between the generated
images from the captions related to the same image. We evaluate our approach
over two popular text-to-image synthesis models, AttnGAN and DM-GAN, on
datasets CUB and COCO, respectively. Experimental results have shown that our
approach can effectively improve the quality of synthetic images in terms of
three metrics: IS, FID and R-precision. Especially, on the challenging COCO
dataset, our approach boosts the FID significantly by 29.60% over AttnGAn and
by 21.96% over DM-GAN.
- Abstract(参考訳): テキスト対画像合成の目標は、所定のテキスト記述にマッチする視覚的な画像を生成することである。
実際には、同じ画像に対して人間が注釈を付けるキャプションは、内容と単語の選択の点で大きなばらつきがある。
同一画像の字幕間の言語的な相違は、基礎的な真実から逸脱した合成画像につながる。
そこで本研究では,合成画像の品質向上とセマンティック一貫性向上のためのコントラスト学習手法を提案する。
事前学習段階では、コントラスト学習アプローチを用いて、同じ画像に対応するキャプションに対する一貫したテキスト表現を学習する。
さらに、GANトレーニングの次の段階において、同一画像に関連するキャプションから生成された画像間の一貫性を高めるために、コントラスト学習法を用いる。
CUBとCOCOのデータセット上で,2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価した。
実験の結果,IS,FID,R-精度の3つの指標を用いて,合成画像の品質を効果的に向上できることがわかった。
特に、挑戦的なCOCOデータセットでは、我々のアプローチは、AttnGAnよりも29.60%、DM-GANより21.96%、FIDを著しく向上させる。
関連論文リスト
- StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions [5.289028250216014]
ニュースデータなどのドメインに存在する実世界のイメージキャプチャペアは、単純で直接記述的なキャプションを使用しない。
我々は、さまざまな状況下でオンラインニュース記事から抽出した抽象ニュースキャプティオNs dAtasetであるANNAをローンチした。
翻訳学習のような手法は抽象的なキャプションの理解において限られた成功を収めるが、コンテンツと文脈の特徴の関係を一貫して学習することができないことを示す。
論文 参考訳(メタデータ) (2023-01-05T17:19:01Z) - Vision-Language Matching for Text-to-Image Synthesis via Generative
Adversarial Networks [13.80433764370972]
テキスト・ツー・イメージ合成は、特定のテキスト記述からフォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
本稿では,VLMGAN* というテキスト・画像合成のための新しい視覚言語マッチング手法を提案する。
提案手法は他のテキスト・画像合成法にも適用可能である。
論文 参考訳(メタデータ) (2022-08-20T03:34:04Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning [26.496357517937614]
既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。
画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:57:06Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。