論文の概要: CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step
- arxiv url: http://arxiv.org/abs/2507.04451v1
- Date: Sun, 06 Jul 2025 16:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.188149
- Title: CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step
- Title(参考訳): CoT-lized Diffusion:T2I生成をステップバイステップで強化しよう
- Authors: Zheyuan Liu, Munan Ning, Qihui Zhang, Shuo Yang, Zhongrui Wang, Yiwei Yang, Xianzhe Xu, Yibing Song, Weihua Chen, Fan Wang, Li Yuan,
- Abstract要約: CoT-Diffは、ステップバイステップのCoTスタイルの推論をT2I世代にもたらすフレームワークである。
CoT-Diffは、MLLM(Multimodal Large Language Model)駆動の3Dレイアウト計画と拡散過程を密に統合する。
3次元Sceneベンチマーク実験により、CoT-Diffは空間アライメントと構成忠実度を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 37.449561703903505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-image (T2I) generation models struggle to align spatial composition with the input text, especially in complex scenes. Even layout-based approaches yield suboptimal spatial control, as their generation process is decoupled from layout planning, making it difficult to refine the layout during synthesis. We present CoT-Diff, a framework that brings step-by-step CoT-style reasoning into T2I generation by tightly integrating Multimodal Large Language Model (MLLM)-driven 3D layout planning with the diffusion process. CoT-Diff enables layout-aware reasoning inline within a single diffusion round: at each denoising step, the MLLM evaluates intermediate predictions, dynamically updates the 3D scene layout, and continuously guides the generation process. The updated layout is converted into semantic conditions and depth maps, which are fused into the diffusion model via a condition-aware attention mechanism, enabling precise spatial control and semantic injection. Experiments on 3D Scene benchmarks show that CoT-Diff significantly improves spatial alignment and compositional fidelity, and outperforms the state-of-the-art method by 34.7% in complex scene spatial accuracy, thereby validating the effectiveness of this entangled generation paradigm.
- Abstract(参考訳): 現在のテキスト・ツー・イメージ(T2I)生成モデルは、特に複雑なシーンにおいて、空間構成と入力テキストの整合に苦慮している。
レイアウトに基づくアプローチでさえ、生成プロセスがレイアウト計画から切り離されるため、最適空間制御が得られ、合成中のレイアウトの洗練が困難になる。
CoT-Diffは,Multimodal Large Language Model(MLLM)駆動の3Dレイアウト計画と拡散過程を密に統合することにより,段階的にCoTスタイルの推論をT2I生成に導入するフレームワークである。
CoT-Diffは、単一拡散ラウンド内でレイアウトを意識した推論インラインを可能にする:各デノイングステップにおいて、MLLMは中間予測を評価し、3Dシーンレイアウトを動的に更新し、生成プロセスを継続的にガイドする。
更新されたレイアウトはセマンティック条件と深度マップに変換され、コンディション対応のアテンション機構を通じて拡散モデルに融合され、正確な空間制御とセマンティックインジェクションを可能にする。
3D Sceneベンチマークの実験により、CoT-Diffは空間的アライメントと構成の忠実さを著しく改善し、複雑な空間的精度で最先端の手法を34.7%向上させ、この絡み合った生成パラダイムの有効性を検証した。
関連論文リスト
- SHaDe: Compact and Consistent Dynamic 3D Reconstruction via Tri-Plane Deformation and Latent Diffusion [0.0]
本稿では3つの重要な要素を統合した動的3次元シーン再構成のための新しいフレームワークを提案する。
明示的な三面変形場、球面調和(SH)注目の視野条件付き正準場、時間的に認識される潜在拡散。
提案手法は,時間とともに進化する3つの2次元特徴面を用いて4次元シーンを符号化し,効率的なコンパクト表現を実現する。
論文 参考訳(メタデータ) (2025-05-22T11:25:38Z) - ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis [45.625062335269355]
拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。
しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。
我々のアプローチは、LAION-400Mから精密に抽出され、合成された空間的明示的なプロンプトのキュレートされたデータセットの上に構築されている。
生成モデルにおける空間整合性を高めるために,低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-18T15:21:37Z) - BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。
我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。
複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。