論文の概要: SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness
- arxiv url: http://arxiv.org/abs/2604.26341v1
- Date: Wed, 29 Apr 2026 06:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.27802
- Title: SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness
- Title(参考訳): 空間フュージョン:本質的な3次元幾何学的認識による統一画像生成
- Authors: Haiyi Qiu, Kaihang Pan, Jiacheng Li, Juncheng Li, Siliang Tang, Yueting Zhuang,
- Abstract要約: 本稿では、3次元幾何学的認識を統合画像生成モデルに内包する新しいフレームワークを提案する。
具体的には、まずMixture-of-Transformers (MoT)アーキテクチャを用いて、MLLMを並列空間変換器で拡張する。
自己注意をMLLMと共有することにより、空間変換器は、リッチなセマンティックコンテキストからターゲット画像の計量深度マップを導出することを学ぶ。
これらの明示的な幾何学的足場は、特殊深度アダプターを介して拡散バックボーンに注入される。
- 参考スコア(独自算出の注目度): 62.38746300197673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unified image generation models have achieved remarkable success by employing MLLMs for semantic understanding and diffusion backbones for image generation. However, these models remain fundamentally limited in spatially-aware tasks due to a lack of intrinsic spatial understanding and the absence of explicit geometric guidance during generation. In this paper, we propose SpatialFusion, a novel framework that internalizes 3D geometric awareness into unified image generation models. Specifically, we first employ a Mixture-of-Transformers (MoT) architecture to augment the MLLM with a parallel spatial transformer to enhance 3D geometric modeling capability. By sharing self-attention with the MLLM, the spatial transformer learns to derive metric-depth maps of target images from rich semantic contexts. These explicit geometric scaffolds are then injected into the diffusion backbone through a specialized depth adapter, providing precise spatial constraints for spatially-coherent image generation. Through a progressive two-stage training strategy, SpatialFusion significantly enhances performance on spatially-aware benchmarks, notably outperforming leading models such as GPT-4o. Additionally, it achieves generalized performance gains across both text-to-image generation and image editing scenarios, all while maintaining negligible inference overhead.
- Abstract(参考訳): 最近の統合画像生成モデルは、意味理解と拡散バックボーンにMLLMを用いることで、顕著な成功を収めている。
しかし、これらのモデルは、本質的な空間的理解の欠如と生成中の明示的な幾何学的ガイダンスの欠如により、空間的に認識されたタスクに基本的に制限される。
本稿では、3次元幾何学的認識を統一画像生成モデルに内包する新しいフレームワークであるSpatialFusionを提案する。
具体的には、まずMixture-of-Transformers (MoT)アーキテクチャを用いて、MLLMを並列空間変換器で拡張し、3次元幾何モデリング能力を向上する。
自己注意をMLLMと共有することにより、空間変換器は、リッチなセマンティックコンテキストからターゲット画像の計量深度マップを導出することを学ぶ。
これらの明示的な幾何学的足場は、特殊深度アダプタを介して拡散バックボーンに注入され、空間的に整合した画像生成のための正確な空間的制約を提供する。
プログレッシブな2段階のトレーニング戦略を通じて、SpatialFusionは空間認識ベンチマークの性能を大幅に向上させ、特にGPT-4oのような先行モデルよりも優れている。
さらに、無視可能な推論オーバーヘッドを維持しながら、テキスト・画像生成と画像編集の両方のシナリオで一般的なパフォーマンス向上を実現している。
関連論文リスト
- Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning [22.547972947051765]
大規模な視覚言語モデル(VLM)は、まだ信頼性の高い3次元空間推論に苦戦している。
本研究では,階層的な融合フレームワークであるSpatialStackを提案する。
この枠組みに基づいて,複数次元空間推論ベンチマークにおける最先端性能を実現するモデル VLM-SpatialStack を開発した。
論文 参考訳(メタデータ) (2026-03-28T22:49:40Z) - GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image [11.612167656421079]
マルチモーダル大言語モデル(MLLM)は2次元画像から3次元幾何学を正確に推定するのに依然として苦労している。
本稿では,新しい2段階後学習フレームワークGACO-CADを紹介する。
DeepCADとFusion360データセットの実験は、GACO-CADが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2025-10-20T04:57:20Z) - BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。