論文の概要: What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
- arxiv url: http://arxiv.org/abs/2512.03422v1
- Date: Wed, 03 Dec 2025 03:57:01 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:04:40.649179
- Title: What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
- Title(参考訳): ロボットのための最高の3Dシーンとは何か? 幾何学から基礎モデルまで
- Authors: Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen,
- Abstract要約: 現在のSLAMとローカライゼーションシステムは、点雲やボクセルのようなスパース表現に依存している。
NeRF、3DGS、ファンデーションモデルは、ハイレベルなセマンティック機能と言語ベースの先行機能を統合するのに適している。
- 参考スコア(独自算出の注目度): 68.35971238810863
- License:
- Abstract: In this paper, we provide a comprehensive overview of existing scene representation methods for robotics, covering traditional representations such as point clouds, voxels, signed distance functions (SDF), and scene graphs, as well as more recent neural representations like Neural Radiance Fields (NeRF), 3D Gaussian Splatting (3DGS), and the emerging Foundation Models. While current SLAM and localization systems predominantly rely on sparse representations like point clouds and voxels, dense scene representations are expected to play a critical role in downstream tasks such as navigation and obstacle avoidance. Moreover, neural representations such as NeRF, 3DGS, and foundation models are well-suited for integrating high-level semantic features and language-based priors, enabling more comprehensive 3D scene understanding and embodied intelligence. In this paper, we categorized the core modules of robotics into five parts (Perception, Mapping, Localization, Navigation, Manipulation). We start by presenting the standard formulation of different scene representation methods and comparing the advantages and disadvantages of scene representation across different modules. This survey is centered around the question: What is the best 3D scene representation for robotics? We then discuss the future development trends of 3D scene representations, with a particular focus on how the 3D Foundation Model could replace current methods as the unified solution for future robotic applications. The remaining challenges in fully realizing this model are also explored. We aim to offer a valuable resource for both newcomers and experienced researchers to explore the future of 3D scene representations and their application in robotics. We have published an open-source project on GitHub and will continue to add new works and technologies to this project.
- Abstract(参考訳): 本稿では,ロボット工学における既存のシーン表現手法の概要を概説し,点雲,ボクセル,符号付き距離関数(SDF),シーングラフなどの従来の表現に加えて,ニューラルレージアン場(NeRF)や3Dガウススプラッティング(3DGS),新興ファウンデーションモデルなどのニューラル表現についても概説する。
現在のSLAMとローカライゼーションシステムは、主に点雲やボクセルのようなスパース表現に依存しているが、密集したシーン表現は、ナビゲーションや障害物回避といった下流タスクにおいて重要な役割を果たすことが期待されている。
さらに、NeRF、3DGS、ファンデーションモデルといった神経表現は、より包括的な3Dシーン理解と具体化インテリジェンスを実現するために、ハイレベルなセマンティクス特徴と言語ベースのプリエントを統合するのに適している。
本稿では,ロボットのコアモジュールを5つの部分(知覚,マッピング,局所化,ナビゲーション,操作)に分類した。
まず、異なるシーン表現の標準的な定式化を提示し、異なるモジュール間のシーン表現の利点とデメリットを比較する。
この調査は、ロボット工学にとって最良の3Dシーン表現とは何か?
次に、3Dシーン表現の今後の開発動向について論じるとともに、3Dファウンデーションモデルが将来のロボットアプリケーションのための統一ソリューションとして現在の手法をどう置き換えるかに焦点をあてる。
このモデルを完全に実現するための残りの課題も検討されている。
我々は,3Dシーン表現の将来とロボット工学への応用を探求するために,新参者および経験豊富な研究者双方に貴重な資源を提供することを目指している。
当社はオープンソースプロジェクトをGitHubで公開していますが,今後も新たな作業とテクノロジをプロジェクトに追加していく予定です。
関連論文リスト
- Advances in 4D Representation: Geometry, Motion, and Interaction [21.99533577912307]
コンピュータグラフィックスの高速進化サブフィールドである4次元生成と再構成について調査する。
私たちは4D表現のユニークで独特な視点から、ドメインのカバレッジを構築します。
論文 参考訳(メタデータ) (2025-10-22T05:22:20Z) - Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - 3D Scene Generation: A Survey [41.202497008985425]
3Dシーン生成は、没入型メディア、ロボティクス、自律運転、エンボディドAIといったアプリケーションのために、空間的に構造化され、意味的に意味があり、フォトリアリスティックな環境を合成することを目指している。
このレビューでは、3Dシーン生成の最近の進歩を整理し、生成AI、3Dビジョン、具体化インテリジェンスとの交差点における有望な方向性を強調している。
論文 参考訳(メタデータ) (2025-05-08T17:59:54Z) - Neural Fields in Robotics: A Survey [39.93473561102639]
Neural Fieldsは、コンピュータビジョンとロボット工学における3Dシーン表現の変革的アプローチとして登場した。
この調査は、ロボット工学における彼らの応用を探求し、知覚、計画、制御を強化する可能性を強調している。
それらのコンパクトさ、メモリ効率、微分可能性、基礎モデルと生成モデルとのシームレスな統合は、リアルタイムアプリケーションに理想的です。
論文 参考訳(メタデータ) (2024-10-26T16:26:41Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。