論文の概要: Towards Better Text-Image Consistency in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2210.15235v1
- Date: Thu, 27 Oct 2022 07:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:30:50.052541
- Title: Towards Better Text-Image Consistency in Text-to-Image Generation
- Title(参考訳): テキスト対画像生成におけるテキストと画像の一貫性向上に向けて
- Authors: Zhaorui Tan, Zihan Ye, Xi Yang, Qiufeng Wang, Yuyao Yan, Kaizhu Huang
- Abstract要約: 私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。
さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。
我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 15.735515302139335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating consistent and high-quality images from given texts is essential
for visual-language understanding. Although impressive results have been
achieved in generating high-quality images, text-image consistency is still a
major concern in existing GAN-based methods. Particularly, the most popular
metric $R$-precision may not accurately reflect the text-image consistency,
often resulting in very misleading semantics in the generated images. Albeit
its significance, how to design a better text-image consistency metric
surprisingly remains under-explored in the community. In this paper, we make a
further step forward to develop a novel CLIP-based metric termed as Semantic
Similarity Distance (SSD), which is both theoretically founded from a
distributional viewpoint and empirically verified on benchmark datasets.
Benefiting from the proposed metric, we further design the Parallel Deep Fusion
Generative Adversarial Networks (PDF-GAN), which can fuse semantic information
at different granularities and capture accurate semantics. Equipped with two
novel plug-and-play components: Hard-Negative Sentence Constructor and Semantic
Projection, the proposed PDF-GAN can mitigate inconsistent semantics and bridge
the text-image semantic gap. A series of experiments show that, as opposed to
current state-of-the-art methods, our PDF-GAN can lead to significantly better
text-image consistency while maintaining decent image quality on the CUB and
COCO datasets.
- Abstract(参考訳): 与えられたテキストから一貫性のある高品質の画像を生成することは、視覚言語理解に不可欠である。
高品質な画像を生成することで印象的な結果が得られたが、既存のganベースの手法ではテキストと画像の一貫性が依然として大きな関心事となっている。
特に、最も人気のある$R$-precisionはテキストイメージの一貫性を正確に反映していない可能性があり、しばしば生成された画像に非常に誤解を招くセマンティクスをもたらす。
その重要性にもかかわらず、より良いテキストイメージ整合性メトリクスをどうやって設計するかは、驚くほどコミュニティで未調査のままである。
本稿では,ssd(semantic similarity distance)と呼ばれる新しいクリップベースメトリクスの開発をさらに進め,分布的視点から理論的に基礎を置き,ベンチマークデータセットで実証的に検証した。
提案手法を応用して,異なる粒度で意味情報を融合し,正確な意味を捉えるパラレルディープフュージョン生成適応ネットワーク(PDF-GAN)をさらに設計する。
Hard-Negative Sentence ConstructorとSemantic Projectionの2つの新しいプラグイン・アンド・プレイコンポーネントを備えることで、提案されたPDF-GANは一貫性のないセマンティクスを緩和し、テキストイメージのセマンティクスギャップを埋めることができる。
一連の実験により、現在の最先端の手法とは対照的に、我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画質を維持しながら、テキスト画像の一貫性を著しく向上させることができることが示された。
関連論文リスト
- Language-Oriented Semantic Latent Representation for Image Transmission [38.62941652189033]
意味コミュニケーション(SC)の新しいパラダイムは、ビットの背後にある意味の提供に焦点を当てている。
データ・テキスト・モデルの最近の進歩は言語指向のSCを促進する。
テキストと圧縮画像の埋め込みの両方を通信する新しいSCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:41:31Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。