論文の概要: Progressive Compositionality In Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2410.16719v1
- Date: Tue, 22 Oct 2024 05:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:50.207752
- Title: Progressive Compositionality In Text-to-Image Generative Models
- Title(参考訳): テキスト・画像生成モデルにおけるプログレッシブな構成性
- Authors: Xu Han, Linghao Jin, Xiaofeng Liu, Paul Pu Liang,
- Abstract要約: 拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。
本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。
また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
- 参考スコア(独自算出の注目度): 33.18510121342558
- License:
- Abstract: Despite the impressive text-to-image (T2I) synthesis capabilities of diffusion models, they often struggle to understand compositional relationships between objects and attributes, especially in complex settings. Existing solutions have tackled these challenges by optimizing the cross-attention mechanism or learning from the caption pairs with minimal semantic changes. However, can we generate high-quality complex contrastive images that diffusion models can directly discriminate based on visual representations? In this work, we leverage large-language models (LLMs) to compose realistic, complex scenarios and harness Visual-Question Answering (VQA) systems alongside diffusion models to automatically curate a contrastive dataset, ConPair, consisting of 15k pairs of high-quality contrastive images. These pairs feature minimal visual discrepancies and cover a wide range of attribute categories, especially complex and natural scenarios. To learn effectively from these error cases, i.e., hard negative images, we propose EvoGen, a new multi-stage curriculum for contrastive learning of diffusion models. Through extensive experiments across a wide range of compositional scenarios, we showcase the effectiveness of our proposed framework on compositional T2I benchmarks.
- Abstract(参考訳): 拡散モデルの印象的なテキスト・ツー・イメージ(T2I)合成能力にもかかわらず、オブジェクトと属性の合成関係を理解するのに苦労することが多い。
既存のソリューションでは、クロスアテンションメカニズムの最適化や、セマンティックな変更を最小限に抑えたキャプションペアからの学習によって、これらの課題に対処している。
しかし、拡散モデルが視覚的表現に基づいて直接識別できるような、高品質な複雑なコントラスト画像を生成することができるだろうか?
本研究では,大規模言語モデル(LLM)を利用して,現実的かつ複雑なシナリオを構成するとともに,VQA(Visual-Question Answering)システムと拡散モデルを用いて,15k対の高画質コントラスト画像からなるコントラストデータセット(ConPair)を自動的にキュレートする。
これらのペアは、最小限の視覚的相違を特徴とし、特に複雑で自然なシナリオにおいて、幅広い属性カテゴリをカバーする。
これらの誤り事例,すなわち強陰性画像から効果的に学習するために,拡散モデルのコントラスト学習のための新しい多段階カリキュラムであるEvoGenを提案する。
幅広い構成シナリオにわたる広範な実験を通じて,提案手法が構成的T2Iベンチマークにおいて有効であることを示す。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models [42.20230095700904]
RealCompoは、新しいトレーニングフリーで、移行フレンドリーなテキスト・ツー・イメージ生成フレームワークである。
復調過程における2つのモデルの強みのバランスをとるために,直感的で斬新なバランサを提案する。
我々のRealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。
論文 参考訳(メタデータ) (2024-02-20T10:56:52Z) - CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image
Diffusion Models [48.10798436003449]
テキスト間の拡散モデルによって生成された画像は、提供されたテキストプロンプトの意味的な意図を忠実に表現するとは限らない。
私たちの研究は、対照的な文脈でこの課題に取り組むことによって、新しい視点を導入します。
さまざまなシナリオにまたがって広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含む。
論文 参考訳(メタデータ) (2023-12-11T01:42:15Z) - Training-Free Structured Diffusion Guidance for Compositional
Text-to-Image Synthesis [78.28620571530706]
大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。
我々は,T2Iモデルの合成スキル,特により正確な属性結合と画像合成を改善する。
論文 参考訳(メタデータ) (2022-12-09T18:30:24Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Explicit and implicit models in infrared and visible image fusion [5.842112272932475]
本稿では,画像融合におけるディープラーニングモデルの限界とそれに対応する最適化戦略について論じる。
21個の試験セットの比較実験を10種類のモデルで行った。
定性的かつ定量的な結果は、暗黙的なモデルが画像の特徴を学習するより包括的な能力を持っていることを示している。
論文 参考訳(メタデータ) (2022-06-20T06:05:09Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。