Fugu-MT 論文翻訳(概要): Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

論文の概要: Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

arxiv url: http://arxiv.org/abs/2603.19235v1
Date: Thu, 19 Mar 2026 17:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.339874
Title: Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
Title（参考訳）: 空間を知る世代モデル - シーン理解のための3D先行画像の公開
Authors: Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai,
Abstract要約: 本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。 GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
参考スコア（独自算出の注目度）: 50.098085774845195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models. We posit that to synthesize temporally coherent videos, these models inherently learn robust 3D structural priors and physical laws. We introduce VEGA-3D (Video Extracted Generative Awareness), a plug-and-play framework that repurposes a pre-trained video diffusion model as a Latent World Simulator. By extracting spatiotemporal features from intermediate noise levels and integrating them with semantic representations via a token-level adaptive gated fusion mechanism, we enrich MLLMs with dense geometric cues without explicit 3D supervision. Extensive experiments across 3D scene understanding, spatial reasoning, and embodied manipulation benchmarks demonstrate that our method outperforms state-of-the-art baselines, validating that generative priors provide a scalable foundation for physical-world understanding. Code is publicly available at https://github.com/H-EmbodVis/VEGA-3D.
Abstract（参考訳）: マルチモーダル大言語モデルは印象的な意味論能力を示すが、しばしば空間的な盲目に悩まされ、微粒な幾何学的推論と物理力学に悩まされる。既存のソリューションは通常、データ不足や一般化の問題によって制限される、明示的な3Dモーダル性や複雑な幾何学的足場に依存している。本研究では,大規模ビデオ生成モデルにおいて,暗黙の空間的先行性を利用したパラダイムシフトを提案する。時間的コヒーレントな動画を合成するために、これらのモデルは本質的に堅牢な3次元構造的先行と物理法則を学習する。 VEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルをラテント・ワールド・シミュレーターとして再利用するプラグイン・アンド・プレイ・フレームワークである。中間雑音レベルから時空間的特徴を抽出し,トークンレベルの適応ゲート融合機構を通じて意味表現と統合することにより,3次元の明示的な監督を伴わずに,密集した幾何学的手がかりでMLLMを豊かにする。 3次元シーン理解,空間的推論,エボデード・ネクストレーション・ベンチマークによる大規模な実験により,本手法は最先端のベースラインよりも優れており,生成的先行が物理世界理解のスケーラブルな基盤となることが検証された。コードはhttps://github.com/H-EmbodVis/VEGA-3Dで公開されている。

関連論文リスト

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model [18.407923160013404]
本稿では,3DreamBoothと3Dapterを組み合わせた3D対応ビデオカスタマイズフレームワークを提案する。 3DreamBoothは1フレーム最適化のパラダイムを通じて時間運動から空間幾何学を分離する。きめ細かいテクスチャを強化し,収束を加速するために,視覚条件モジュールである3Dapterを組み込んだ。
論文参考訳（メタデータ） (2026-03-19T06:14:05Z)
GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文参考訳（メタデータ） (2026-03-17T12:43:48Z)
AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views [18.361136390711415]
屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
論文参考訳（メタデータ） (2025-10-09T06:30:20Z)
FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction [13.098585993121722]
本稿では,FantasyWorldについて紹介する。FantasyWorldは,凍結動画基盤モデルをトレーニング可能な幾何学的ブランチで拡張する幾何学的拡張フレームワークである。提案手法は,3次元予測を正規化するためのガイド映像生成とビデオ優先の手法であるクロスブランチ・インフォメーションを導入する。実験により、FantasyWorldは映像の想像力と3D知覚を効果的に橋渡しし、近年の多視点コヒーレンスとスタイル整合性において、幾何学的に一貫性のあるベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2025-09-25T22:24:23Z)
UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文参考訳（メタデータ） (2025-08-16T07:27:31Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。