論文の概要: IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2410.07171v1
- Date: Wed, 9 Oct 2024 17:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:46:48.792849
- Title: IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
- Title(参考訳): IterComp: テキスト・画像生成のためのモデルギャラリーからの反復的構成認識フィードバック学習
- Authors: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui,
- Abstract要約: IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
- 参考スコア(独自算出の注目度): 70.8833857249951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp
- Abstract(参考訳): RPG、Stable Diffusion 3、FLUXといった高度な拡散モデルは、合成テキスト・画像生成において顕著な進歩を遂げている。
しかしながら、これらの手法は典型的には、空間的関係における属性結合の扱いに優れ、構成生成の異なる強みを示す。
この格差は、様々なモデルの補完的な強みを活用して、構成能力を包括的に改善できるアプローチの必要性を強調します。
そこで本研究では,複数のモデルから合成認識モデルの嗜好を集約する新しいフレームワークであるIterCompを紹介し,コンポジション生成を向上させるために反復的なフィードバック学習アプローチを採用する。
具体的には、6つの強力なオープンソース拡散モデルのギャラリーをキュレートし、属性結合、空間関係、非空間関係の3つの重要な構成指標を評価する。
これらの指標に基づいて、多数の画像ランク対からなる合成対応モデル嗜好データセットを開発し、合成対応報酬モデルを訓練する。
そこで我々は,閉ループ方式で構成性を向上させる反復的フィードバック学習法を提案し,基本拡散モデルと報奨モデルの両方を複数回にわたって漸進的に自己調整することを可能にする。
理論的な証明は、従来のSOTA法(例えば Omost や FLUX)よりも、特に多カテゴリーのオブジェクト合成と複雑な意味的アライメントにおいて、有効性を示し、広範な実験を行った。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
コード:https://github.com/YangLing0818/IterComp
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Progressive Compositionality In Text-to-Image Generative Models [33.18510121342558]
拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。
本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。
また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
論文 参考訳(メタデータ) (2024-10-22T05:59:29Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - Robust Few-Shot Ensemble Learning with Focal Diversity-Based Pruning [10.551984557040102]
本稿では,焦点多様性に最適化された数発のアンサンブル学習手法であるFusionShotを提案する。
これにより、事前訓練された少数ショットモデルの堅牢性と一般化性能が向上する。
代表的な数ショットベンチマークの実験では、FusionShotが推奨するトップKアンサンブルが、代表的なSOTA数ショットモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T22:21:49Z) - RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models [42.20230095700904]
RealCompoは、新しいトレーニングフリーで、移行フレンドリーなテキスト・ツー・イメージ生成フレームワークである。
復調過程における2つのモデルの強みのバランスをとるために,直感的で斬新なバランサを提案する。
我々のRealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。
論文 参考訳(メタデータ) (2024-02-20T10:56:52Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC [102.64648158034568]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。