論文の概要: LLMControl: Grounded Control of Text-to-Image Diffusion-based Synthesis with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2507.19939v1
- Date: Sat, 26 Jul 2025 12:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.472661
- Title: LLMControl: Grounded Control of Text-to-Image Diffusion-based Synthesis with Multimodal LLMs
- Title(参考訳): LLMControl:マルチモーダルLCMを用いたテキスト・画像拡散合成の基底制御
- Authors: Jiaze Wang, Rui Chen, Haowang Cui,
- Abstract要約: 制御可能なT2I生成タスクの課題に対処するため, LLM_Control というフレームワークを提案する。
LLM_Controlは、接地性能を向上させることにより、事前学習した拡散モデルを正確に変調する。
我々はマルチモーダル LLM をグローバルコントローラとして利用し,空間レイアウトの配置,意味記述の強化,オブジェクト属性のバインドを行う。
- 参考スコア(独自算出の注目度): 3.6016438645365834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent spatial control methods for text-to-image (T2I) diffusion models have shown compelling results. However, these methods still fail to precisely follow the control conditions and generate the corresponding images, especially when encountering the textual prompts that contain multiple objects or have complex spatial compositions. In this work, we present a LLM-guided framework called LLM\_Control to address the challenges of the controllable T2I generation task. By improving grounding capabilities, LLM\_Control is introduced to accurately modulate the pre-trained diffusion models, where visual conditions and textual prompts influence the structures and appearance generation in a complementary way. We utilize the multimodal LLM as a global controller to arrange spatial layouts, augment semantic descriptions and bind object attributes. The obtained control signals are injected into the denoising network to refocus and enhance attention maps according to novel sampling constraints. Extensive qualitative and quantitative experiments have demonstrated that LLM\_Control achieves competitive synthesis quality compared to other state-of-the-art methods across various pre-trained T2I models. It is noteworthy that LLM\_Control allows the challenging input conditions on which most of the existing methods
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルに対する最近の空間制御手法は、説得力のある結果を示している。
しかし、これらの手法は制御条件を正確に追従し、対応する画像を生成することができず、特に複数のオブジェクトを含むテキストプロンプトや複雑な空間構成を持つ場合である。
本稿では、制御可能なT2I生成タスクの課題に対処するため、LLM\_Controlと呼ばれるLLM誘導フレームワークを提案する。
LLM\_Controlは、接地能力の向上により、視覚条件とテキストプロンプトが相補的な方法で構造と外観生成に影響を与える事前学習拡散モデルを正確に調整するために導入された。
我々はマルチモーダル LLM をグローバルコントローラとして利用し,空間レイアウトの配置,意味記述の強化,オブジェクト属性のバインドを行う。
得られた制御信号をデノナイジングネットワークに注入し、新しいサンプリング制約に従ってアテンションマップを再焦点化し、強化する。
大規模定性的および定量的実験により、LLM\_Controlは、様々な事前訓練されたT2Iモデルにおける他の最先端の手法と比較して、競争的な合成品質を達成することが示された。
注目すべきなのは、LLM\_Controlは既存のメソッドのほとんどに挑戦的な入力条件を可能にすることだ。
関連論文リスト
- DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。
複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。
トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文 参考訳(メタデータ) (2023-12-12T18:59:14Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。