論文の概要: Rare-to-Frequent: Unlocking Compositional Generation Power of Diffusion Models on Rare Concepts with LLM Guidance
- arxiv url: http://arxiv.org/abs/2410.22376v1
- Date: Tue, 29 Oct 2024 07:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:32.855728
- Title: Rare-to-Frequent: Unlocking Compositional Generation Power of Diffusion Models on Rare Concepts with LLM Guidance
- Title(参考訳): LLM誘導による希少概念に基づく拡散モデルの非ロック構成生成力
- Authors: Dongmin Park, Sebin Kim, Taehong Moon, Minkyu Kim, Kangwook Lee, Jaewoong Cho,
- Abstract要約: 拡散モデルの合成生成能力は,大規模言語モデル指導によって著しく向上できることを示す。
本稿では、レア・ツー・頻繁なコンセプトガイダンスを計画し、実行するためのトレーニングフリーアプローチR2Fを提案する。
我々のフレームワークは、事前訓練された拡散モデルやLLMに対して柔軟であり、領域誘導拡散アプローチとシームレスに統合することができる。
- 参考スコア(独自算出の注目度): 10.083444217140475
- License:
- Abstract: State-of-the-art text-to-image (T2I) diffusion models often struggle to generate rare compositions of concepts, e.g., objects with unusual attributes. In this paper, we show that the compositional generation power of diffusion models on such rare concepts can be significantly enhanced by the Large Language Model (LLM) guidance. We start with empirical and theoretical analysis, demonstrating that exposing frequent concepts relevant to the target rare concepts during the diffusion sampling process yields more accurate concept composition. Based on this, we propose a training-free approach, R2F, that plans and executes the overall rare-to-frequent concept guidance throughout the diffusion inference by leveraging the abundant semantic knowledge in LLMs. Our framework is flexible across any pre-trained diffusion models and LLMs, and can be seamlessly integrated with the region-guided diffusion approaches. Extensive experiments on three datasets, including our newly proposed benchmark, RareBench, containing various prompts with rare compositions of concepts, R2F significantly surpasses existing models including SD3.0 and FLUX by up to 28.1%p in T2I alignment. Code is available at https://github.com/krafton-ai/Rare2Frequent.
- Abstract(参考訳): State-of-the-the-art text-to-image (T2I)拡散モデルは、しばしば珍しい概念、例えば珍しい属性を持つオブジェクトを生成するのに苦労する。
本稿では,そのような稀な概念に対する拡散モデルの構成的生成能力について,Large Language Model (LLM) ガイダンスにより著しく向上できることを示す。
実験的および理論的分析から始め, 拡散サンプリング過程において, 対象とする希少概念に関連する頻繁な概念を明らかにすることにより, より正確な概念構成が得られることを示す。
そこで本研究では,LLMの豊富な意味知識を活用して,拡散推論全体を通して,レア・レア・レア・レアの概念ガイダンスを計画し,実行するための学習自由な手法R2Fを提案する。
我々のフレームワークは、事前訓練された拡散モデルやLLMに対して柔軟であり、領域誘導拡散アプローチとシームレスに統合することができる。
新たに提案したベンチマークであるRareBenchを含む3つのデータセットに対する大規模な実験では、R2Fは、SD3.0やFLUXを含む既存のモデルを最大28.1%のT2Iアライメントで大幅に上回っている。
コードはhttps://github.com/krafton-ai/Rare2Frequent.comで入手できる。
関連論文リスト
- Heavy-Tailed Diffusion Models [38.713884992630675]
従来の拡散・流れマッチングモデルでは, 重み付き挙動を捉えることができないことを示す。
ヘビーテール推定のための拡散フレームワークを再利用することで、この問題に対処する。
既存の拡散・流動モデルの拡張である t-EDM と t-Flow を導入する。
論文 参考訳(メタデータ) (2024-10-18T04:29:46Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - How Diffusion Models Learn to Factorize and Compose [14.161975556325796]
拡散モデルは、トレーニングセットに表示されない可能性のある要素を組み合わせた、フォトリアリスティックな画像を生成することができる。
本研究では,拡散モデルが構成可能な特徴の意味的意味的・要因的表現を学習するかどうかを考察する。
論文 参考訳(メタデータ) (2024-08-23T17:59:03Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。