論文の概要: StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2203.15799v1
- Date: Tue, 29 Mar 2022 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:27:03.496025
- Title: StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis
- Title(参考訳): StyleT2I: 合成と高忠実化を目指して
- Authors: Zhiheng Li, Martin Renqiang Min, Kai Li, Chenliang Xu
- Abstract要約: 構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 52.341186561026724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although progress has been made for text-to-image synthesis, previous methods
fall short of generalizing to unseen or underrepresented attribute compositions
in the input text. Lacking compositionality could have severe implications for
robustness and fairness, e.g., inability to synthesize the face images of
underrepresented demographic groups. In this paper, we introduce a new
framework, StyleT2I, to improve the compositionality of text-to-image
synthesis. Specifically, we propose a CLIP-guided Contrastive Loss to better
distinguish different compositions among different sentences. To further
improve the compositionality, we design a novel Semantic Matching Loss and a
Spatial Constraint to identify attributes' latent directions for intended
spatial region manipulations, leading to better disentangled latent
representations of attributes. Based on the identified latent directions of
attributes, we propose Compositional Attribute Adjustment to adjust the latent
code, resulting in better compositionality of image synthesis. In addition, we
leverage the $\ell_2$-norm regularization of identified latent directions (norm
penalty) to strike a nice balance between image-text alignment and image
fidelity. In the experiments, we devise a new dataset split and an evaluation
metric to evaluate the compositionality of text-to-image synthesis models. The
results show that StyleT2I outperforms previous approaches in terms of the
consistency between the input text and synthesized images and achieves higher
fidelity.
- Abstract(参考訳): テキストから画像への合成の進歩はあったが、以前の手法では、入力テキストの属性合成を認識できなかったり、表現不足にしてしまったりする。
構成性の欠如は、ロバスト性や公正性(例えば、表現不足な人口集団の顔画像の合成ができないなど)に深刻な影響を及ぼす可能性がある。
本稿では,テキスト間合成の合成性を改善するための新しいフレームワークであるStyleT2Iを提案する。
具体的には,CLIP誘導のコントラスト損失(Contrastive Loss)を提案する。
さらに構成性を向上させるため,対象空間領域操作における属性の潜在方向を識別するための,新しい意味マッチング損失と空間制約を設計すれば,属性の類似性が向上する。
識別された属性の潜在方向に基づいて、潜在コードを調整するための合成属性調整を提案し、画像合成の合成性が向上する。
さらに、特定された潜在方向(ノルムペナルティ)の$\ell_2$-norm正規化を利用して、画像テキストアライメントと画像忠実度をうまくバランスさせる。
実験では,テキスト・画像合成モデルの合成性を評価するために,新しいデータセット分割と評価指標を考案した。
その結果,StyleT2Iは入力テキストと合成画像との整合性において従来の手法よりも優れ,忠実度が高いことがわかった。
関連論文リスト
- Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文 参考訳(メタデータ) (2024-12-31T13:39:08Z) - Fine-grained Text to Image Synthesis [4.742847798631037]
微細なテキストから画像合成は、異なるカテゴリに属するテキストから画像を生成する。
補助分類器は、識別器が画像のクラスを分類するのを手助けし、生成器がより正確なきめ細かい画像を合成するのを手助けする。
我々はCUB-200-2011の鳥のデータセットとオックスフォード102の花のデータセットを用いて,いくつかの最先端手法の評価を行った。
論文 参考訳(メタデータ) (2024-12-10T05:09:52Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Vision-Language Matching for Text-to-Image Synthesis via Generative
Adversarial Networks [13.80433764370972]
テキスト・ツー・イメージ合成は、特定のテキスト記述からフォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
本稿では,VLMGAN* というテキスト・画像合成のための新しい視覚言語マッチング手法を提案する。
提案手法は他のテキスト・画像合成法にも適用可能である。
論文 参考訳(メタデータ) (2022-08-20T03:34:04Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T06:43:31Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。