論文の概要: Vision-Language Matching for Text-to-Image Synthesis via Generative
Adversarial Networks
- arxiv url: http://arxiv.org/abs/2208.09596v1
- Date: Sat, 20 Aug 2022 03:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:19:19.488278
- Title: Vision-Language Matching for Text-to-Image Synthesis via Generative
Adversarial Networks
- Title(参考訳): 生成逆ネットワークによるテキスト・画像合成のための視覚言語マッチング
- Authors: Qingrong Cheng, Keyu Wen, Xiaodong Gu
- Abstract要約: テキスト・ツー・イメージ合成は、特定のテキスト記述からフォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
本稿では,VLMGAN* というテキスト・画像合成のための新しい視覚言語マッチング手法を提案する。
提案手法は他のテキスト・画像合成法にも適用可能である。
- 参考スコア(独自算出の注目度): 13.80433764370972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis aims to generate a photo-realistic and semantic
consistent image from a specific text description. The images synthesized by
off-the-shelf models usually contain limited components compared with the
corresponding image and text description, which decreases the image quality and
the textual-visual consistency. To address this issue, we propose a novel
Vision-Language Matching strategy for text-to-image synthesis, named VLMGAN*,
which introduces a dual vision-language matching mechanism to strengthen the
image quality and semantic consistency. The dual vision-language matching
mechanism considers textual-visual matching between the generated image and the
corresponding text description, and visual-visual consistent constraints
between the synthesized image and the real image. Given a specific text
description, VLMGAN* firstly encodes it into textual features and then feeds
them to a dual vision-language matching-based generative model to synthesize a
photo-realistic and textual semantic consistent image. Besides, the popular
evaluation metrics for text-to-image synthesis are borrowed from simple image
generation, which mainly evaluates the reality and diversity of the synthesized
images. Therefore, we introduce a metric named Vision-Language Matching Score
(VLMS) to evaluate the performance of text-to-image synthesis which can
consider both the image quality and the semantic consistency between
synthesized image and the description. The proposed dual multi-level
vision-language matching strategy can be applied to other text-to-image
synthesis methods. We implement this strategy on two popular baselines, which
are marked with ${\text{VLMGAN}_{+\text{AttnGAN}}}$ and
${\text{VLMGAN}_{+\text{DFGAN}}}$. The experimental results on two widely-used
datasets show that the model achieves significant improvements over other
state-of-the-art methods.
- Abstract(参考訳): テキスト間の合成は、特定のテキスト記述から写真リアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
市販のモデルで合成された画像は、対応する画像やテキスト記述に比べて限られたコンポーネントを含んでおり、画像品質とテキストと視覚の一貫性が低下する。
本稿では,テキスト対画像合成のための新たな視覚言語マッチング戦略であるvlmgan*を提案する。
デュアルビジョン言語マッチング機構は、生成した画像と対応するテキスト記述とのテキスト-視覚的マッチングと、合成した画像と実画像との視覚-視覚的一貫した制約を考察する。
特定のテキスト記述が与えられた後、VLMGAN*はまずそれをテキストの特徴にエンコードし、それから2つの視覚言語マッチングベースの生成モデルに供給し、フォトリアリスティックおよびテキストセマンティック一貫性のあるイメージを合成する。
さらに、合成画像の現実性と多様性を主に評価する単純な画像生成から、テキスト・画像合成のための一般的な評価指標を借用した。
そこで我々は,VLMS(Vision-Language Matching Score)と呼ばれるメトリクスを導入し,画像品質と合成画像と記述とのセマンティック一貫性を両立できるテキスト間合成の性能を評価する。
提案する2つの多レベル視覚言語マッチング戦略は、他のテキストから画像への合成法に適用できる。
これは、${\text{VLMGAN}_{+\text{AttnGAN}}}$と${\text{VLMGAN}_{+\text{DFGAN}}}$である。
広く使われている2つのデータセットの実験結果は、モデルが他の最先端の方法よりも大幅に改善されていることを示している。
関連論文リスト
- Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T06:43:31Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。