論文の概要: 3D-Belief: Embodied Belief Inference via Generative 3D World Modeling
- arxiv url: http://arxiv.org/abs/2605.11367v1
- Date: Tue, 12 May 2026 00:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.496853
- Title: 3D-Belief: Embodied Belief Inference via Generative 3D World Modeling
- Title(参考訳): 3D-Blief:生成的3次元世界モデリングによる身体的信念推論
- Authors: Yifan Yin, Zehao Wen, Jieneng Chen, Zehan Zheng, Nanru Dai, Haojun Shi, Suyu Ye, Aydan Huang, Zheyuan Zhang, Alan Yuille, Jianwen Xie, Ayush Tewari, Tianmin Shu,
- Abstract要約: 我々は,部分的な観察から明確で行動可能な3D信念を推論し,時間とともにオンラインに更新する3Dワールドモデルである3D-Beliefを提示する。
従来の視覚予測モデルとは異なり、3D-Beliefは3Dで直接不確実性を示しており、具体化されたエージェントは、部分的に観察された環境について、もっともらしいシーンの完了と推論を想像することができる。
- 参考スコア(独自算出の注目度): 37.75852887428672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual generative models have highlighted the promise of learning generative world models. However, most existing approaches frame world modeling as novel-view synthesis or future-frame prediction, emphasizing visual realism rather than the structured uncertainty required by embodied agents acting under partial observability. In this work, we propose a different perspective: world modeling as embodied belief inference in 3D space. From this view, a world model should not merely render what may be seen, but maintain and update an agent's belief about the unobserved 3D world as new observations are acquired. We identify several key capabilities for such models, including spatially consistent scene memory, multi-hypothesis belief sampling, sequential belief updating, and semantically informed prediction of unseen regions. We instantiate these ideas in 3D-Belief, a generative 3D world model that infers explicit, actionable 3D beliefs from partial observations and updates them online over time. Unlike prior visual prediction models, 3D-Belief represents uncertainty directly in 3D, enabling embodied agents to imagine plausible scene completions and reason over partially observed environments. We evaluate 3D-Belief on 2D visual quality for scene memory and unobserved-scene imagination, object- and scene-level 3D imagination using our proposed 3D-CORE benchmark, and challenging object navigation tasks in both simulation and the real world. Experiments show that 3D-Belief improves 2D and 3D imagination quality and downstream embodied task performance compared to state-of-the-art methods.
- Abstract(参考訳): 視覚生成モデルの最近の進歩は、生成世界モデルを学ぶという約束を浮き彫りにした。
しかしながら、既存のほとんどのアプローチは、新しい視点合成や将来のフレーム予測としてフレーム世界モデリングを行い、部分的に観察可能な状態に作用するエンボディエージェントが要求する構造的不確実性よりも、視覚的リアリズムを強調している。
本研究では,3次元空間における信念推論を具体化する世界モデリングという,異なる視点を提案する。
この視点から見ると、世界モデルは単に見えるかもしれないものを描画するだけでなく、新しい観察が得られれば、観測されていない3D世界に対するエージェントの信念を維持・更新すべきである。
本研究では,空間的に一貫したシーンメモリ,複数仮説的信念サンプリング,逐次的信念更新,意味的情報による未知領域の予測など,そのようなモデルのいくつかの重要な機能を明らかにする。
私たちはこれらのアイデアを、3D-Beliefという生成的3D世界モデルでインスタンス化し、部分的な観察から明確で行動可能な3D信念を推論し、時間とともにオンラインに更新します。
従来の視覚予測モデルとは異なり、3D-Beliefは3Dで直接不確実性を示しており、具体化されたエージェントは、部分的に観察された環境について、もっともらしいシーンの完了と推論を想像することができる。
提案した3D-COREベンチマークを用いて,シーンメモリの2次元視覚的品質と未観測シーンの想像力,オブジェクトレベルとシーンレベルの3D想像力,シミュレーションと実世界におけるオブジェクトナビゲーションの課題について評価した。
実験の結果,3D-Beliefは最先端の手法と比較して,2次元および3次元の想像力品質と下流の具体的タスク性能を改善した。
関連論文リスト
- WorldAgents: Can Foundation Image Models be Agents for 3D World Models? [82.83725150353915]
2次元モデルが実際に3次元世界の把握をカプセル化していることを実証する。
この理解を生かして,本手法は拡張性,現実性,および3D一貫性のある世界をうまく合成する。
論文 参考訳(メタデータ) (2026-03-20T07:22:41Z) - Beyond Pixel Histories: World Models with Persistent 3D State [50.4601060508243]
PERSISTは、潜伏した3Dシーンの進化をシミュレートする世界モデルの新たなパラダイムである。
既存の手法に比べて空間記憶,3次元整合性,長期安定性が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-03T19:58:31Z) - From 2D to 3D Cognition: A Brief Survey of General World Models [16.121071388463694]
幾何学的に一貫したインタラクティブな3D環境を合成できる3D認識型生成世界モデルが実証されている。
急速な進歩にもかかわらず、この分野は、新しいテクニックを分類し、3D認知世界モデルを進める上での役割を明らかにするための体系的な分析を欠いている。
本調査は,2次元知覚から3次元認知へ移行する世界モデルの構造的,前方視的なレビューを提供する,概念的枠組みを導入することで,このニーズに対処する。
論文 参考訳(メタデータ) (2025-06-25T05:05:09Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。
この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。
提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文 参考訳(メタデータ) (2023-03-23T17:59:40Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。