論文の概要: Towards Physically Executable 3D Gaussian for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2510.21307v1
- Date: Fri, 24 Oct 2025 10:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.432791
- Title: Towards Physically Executable 3D Gaussian for Embodied Navigation
- Title(参考訳): 身体ナビゲーションのための物理的に実行可能な3次元ガウシアンを目指して
- Authors: Bingchen Miao, Rong Wei, Zhiqi Ge, Xiaoquan sun, Shiqi Gao, Jingzhe Zhu, Renhan Wang, Siliang Tang, Jun Xiao, Rui Tang, Juncheng Li,
- Abstract要約: SAGE-3Dは、3DGSを実行可能、セマンティック、物理的に整合した環境にアップグレードする新しいパラダイムである。
1)オブジェクトレベルの微粒なアノテーションを3DGSに追加するオブジェクト中心セマンティックグラウンドリングと,(2)衝突物体を3DGSに埋め込む物理認識実行結合とから構成される。
1Kオブジェクトアノテートされた3DGS屋内シーンデータを含むInstituteGSをリリースし、2MVLNデータを備えた最初の3DGSベースのVLNベンチマークであるSAGE-Benchを紹介した。
- 参考スコア(独自算出の注目度): 37.428618598143395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Gaussian Splatting (3DGS), a 3D representation method with photorealistic real-time rendering capabilities, is regarded as an effective tool for narrowing the sim-to-real gap. However, it lacks fine-grained semantics and physical executability for Visual-Language Navigation (VLN). To address this, we propose SAGE-3D (Semantically and Physically Aligned Gaussian Environments for 3D Navigation), a new paradigm that upgrades 3DGS into an executable, semantically and physically aligned environment. It comprises two components: (1) Object-Centric Semantic Grounding, which adds object-level fine-grained annotations to 3DGS; and (2) Physics-Aware Execution Jointing, which embeds collision objects into 3DGS and constructs rich physical interfaces. We release InteriorGS, containing 1K object-annotated 3DGS indoor scene data, and introduce SAGE-Bench, the first 3DGS-based VLN benchmark with 2M VLN data. Experiments show that 3DGS scene data is more difficult to converge, while exhibiting strong generalizability, improving baseline performance by 31% on the VLN-CE Unseen task. The data and code will be available soon.
- Abstract(参考訳): フォトリアリスティックなリアルタイムレンダリング機能を備えた3次元表現手法である3D Gaussian Splatting (3DGS) は, sim-to-realのギャップを狭める有効なツールであると考えられる。
しかし、Visual-Language Navigation (VLN)の詳細なセマンティクスと物理的実行性は欠如している。
そこで我々は,SAGE-3D(Semantically and Physically Aligned Gaussian Environments for 3D Navigation)を提案する。
1)オブジェクトレベルの微粒なアノテーションを3DGSに追加するオブジェクト中心セマンティックグラウンドリングと,(2)衝突物体を3DGSに埋め込み,リッチな物理インターフェースを構築する物理認識実行結合とから構成される。
1Kオブジェクトアノテートされた3DGS屋内シーンデータを含むInstituteGSをリリースし、2MVLNデータを備えた最初の3DGSベースのVLNベンチマークであるSAGE-Benchを紹介した。
実験の結果,VLN-CE Unseenタスクでは,3DGSシーンデータの収束が困難であり,高い一般化性を示し,ベースライン性能が31%向上した。
データとコードはまもなく利用可能になる。
関連論文リスト
- LabelGS: Label-Aware 3D Gaussian Splatting for 3D Scene Segmentation [56.4321049923868]
3D Gaussian Splatting (3DGS)は、3Dシーンの新たな明示的な表現として登場し、高忠実度再構成と効率的なレンダリングの両方を提供している。
ガウス表現をオブジェクトラベルで拡張する手法であるラベル対応3Dガウス分割法(LabelGS)を提案する。
LabelGSはFeature-3DGSと比較して、1440X1080の解像度でトレーニングで22倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-08-27T09:07:38Z) - SAGOnline: Segment Any Gaussians Online [17.33447710659887]
3D Gaussian Splatting (3DGS) は、明示的な3Dシーン表現のための強力なパラダイムとして登場した。
現在の手法では, 計算コストの禁止, 空間的推論の制限, 複数物体の同時追跡が困難となっている。
Segment Any Gaussians Online (SAGOnline) はガウスシーンにおけるリアルタイム3Dセグメンテーションのための軽量でゼロショットのフレームワークである。
論文 参考訳(メタデータ) (2025-08-11T17:38:50Z) - SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンド(3D Visual Grounding)は、拡張現実(AR)やロボティクス(ロボティクス)などの応用に欠かせない、テキストによる記述に基づく3Dシーンのオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
SeeGroundは3Dのシーンを3Dデータと2D-VLMの入力フォーマットのギャップを埋め、クエリ整列された画像と空間的にリッチなテキスト記述のハイブリッドとして表現している。
論文 参考訳(メタデータ) (2024-12-05T17:58:43Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.56357905500512]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。