論文の概要: Attribute-Centric Compositional Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2301.01413v1
- Date: Wed, 4 Jan 2023 03:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:42:05.257099
- Title: Attribute-Centric Compositional Text-to-Image Generation
- Title(参考訳): 属性中心合成テキスト・画像生成
- Authors: Yuren Cong, Martin Renqiang Min, Li Erran Li, Bodo Rosenhahn, Michael
Ying Yang
- Abstract要約: ACTIGは属性中心のコンポジションテキスト・ツー・イメージ生成フレームワークである。
属性中心の特徴強化と,新しい画像のないトレーニング手法を提案する。
CelebA-HQおよびCUBデータセット上で、我々のフレームワークを検証する。
- 参考スコア(独自算出の注目度): 45.12516226662346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent impressive breakthroughs in text-to-image generation,
generative models have difficulty in capturing the data distribution of
underrepresented attribute compositions while over-memorizing overrepresented
attribute compositions, which raises public concerns about their robustness and
fairness. To tackle this challenge, we propose ACTIG, an attribute-centric
compositional text-to-image generation framework. We present an
attribute-centric feature augmentation and a novel image-free training scheme,
which greatly improves model's ability to generate images with underrepresented
attributes. We further propose an attribute-centric contrastive loss to avoid
overfitting to overrepresented attribute compositions. We validate our
framework on the CelebA-HQ and CUB datasets. Extensive experiments show that
the compositional generalization of ACTIG is outstanding, and our framework
outperforms previous works in terms of image quality and text-image
consistency.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ生成の画期的な進歩にもかかわらず、生成モデルは、過度に記憶された過剰な属性合成を記憶しながら、未表現の属性合成のデータ分布を捉えるのに困難である。
この課題に対処するため,属性中心の合成テキスト・画像生成フレームワークであるACTIGを提案する。
属性中心の特徴強化と,モデルが表現不足な属性で画像を生成する能力を大幅に向上させる新しい画像自由トレーニング手法を提案する。
さらに、過剰表現された属性合成への過度な適合を避けるために、属性中心のコントラスト損失を提案する。
CelebA-HQおよびCUBデータセット上で、我々のフレームワークを検証する。
広範な実験により,actigの合成汎化は卓越しており,画像品質やテキスト・画像一貫性の面では,従来の手法よりも優れていることが示された。
関連論文リスト
- TAGE: Trustworthy Attribute Group Editing for Stable Few-shot Image Generation [10.569380190029317]
TAGEは3つの積分モジュールからなる革新的な画像生成ネットワークである。
CPMモジュールは、カテゴリに依存しない属性のセマンティックディメンションを掘り下げて、それらを個別のコードブックにカプセル化する。
PSMモジュールは、CPMのTransformerアーキテクチャにシームレスに統合されるセマンティックキューを生成する。
論文 参考訳(メタデータ) (2024-10-23T13:26:19Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Understanding and Mitigating Compositional Issues in Text-to-Image Generative Models [46.723653095494896]
CLIPテキストエンコーダによる不完全なテキストコンディショニングは、高忠実な合成シーンを生成するためのテキスト・ツー・イメージ・モデルが欠如している主な理由の1つであることを示す。
本研究の主目的は,モデルのFIDスコアを損なうことなく,最高の構成改善が達成できることである。
論文 参考訳(メタデータ) (2024-06-12T03:21:34Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image
Generation [18.36261166580862]
テキスト・ツー・イメージ生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出する。
属性情報を補完する有効なテキスト表現法を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:28:54Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。