論文の概要: Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation
- arxiv url: http://arxiv.org/abs/2602.11980v1
- Date: Thu, 12 Feb 2026 14:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.862782
- Title: Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation
- Title(参考訳): 思考の空間的連鎖:空間推論生成のためのブリッジング理解と生成モデル
- Authors: Wei Chen, Yancheng Long, Mingqiao Liu, Haojie Ding, Yankai Yang, Hongyang Wei, Yi-Fan Zhang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Long Chen,
- Abstract要約: 本稿では,MLLMの推論能力と拡散モデルの生成能力を橋渡しするプラグアンドプレイ手法を提案する。
まず、拡散モデルのレイアウト認識を、インターリーブされたテキストコーディネート命令形式でトレーニングする。
次に、最新のMLLMをプランナとして活用し、包括的レイアウト計画を生成し、それらの空間計画能力を生成プロセスに直接転送する。
- 参考スコア(独自算出の注目度): 25.025042208824416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion models have shown exceptional capabilities in aesthetic image synthesis, they often struggle with complex spatial understanding and reasoning. Existing approaches resort to Multimodal Large Language Models (MLLMs) to enhance this capability. However, they either incur high computational costs through joint training or suffer from spatial information loss when relying solely on textual prompts. To alleviate these limitations, we propose a Spatial Chain-of-Thought (SCoT) framework, a plug-and-play approach that effectively bridges the reasoning capabilities of MLLMs with the generative power of diffusion models. Specifically, we first enhance the diffusion model's layout awareness by training it on an interleaved text-coordinate instruction format. We then leverage state-of-the-art MLLMs as planners to generate comprehensive layout plans, transferring their spatial planning capabilities directly to the generation process. Extensive experiments demonstrate that our method achieves state-of-the-art performance on image generation benchmarks and significantly outperforms baselines on complex reasoning tasks, while also showing strong efficacy in image editing scenarios.
- Abstract(参考訳): 拡散モデルは美的画像合成において例外的な能力を示したが、しばしば複雑な空間的理解と推論に苦しむ。
既存のアプローチでは、この機能を強化するためにMLLM(Multimodal Large Language Models)を採用している。
しかし、共同訓練によって高い計算コストを発生させるか、テキストのプロンプトのみに依存する場合、空間情報損失に悩まされるかのいずれかである。
これらの制約を緩和するために,MLLMの推論能力と拡散モデルの生成力とを効果的に橋渡しするプラグイン・アンド・プレイ・アプローチであるScoT(Spatial Chain-of-Thought)フレームワークを提案する。
具体的には、まず拡散モデルのレイアウト認識を、インターリーブされたテキストコーディネート命令形式でトレーニングする。
次に、最新のMLLMをプランナとして活用し、包括的レイアウト計画を生成し、それらの空間計画能力を生成プロセスに直接転送する。
大規模な実験により,この手法は画像生成ベンチマーク上での最先端性能を実現し,複雑な推論タスクのベースラインを著しく上回り,画像編集のシナリオにおいても高い有効性を示した。
関連論文リスト
- FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。