論文の概要: Multi-Scale Gaussian-Language Map for Zero-shot Embodied Navigation and Reasoning
- arxiv url: http://arxiv.org/abs/2605.01736v1
- Date: Sun, 03 May 2026 06:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.913866
- Title: Multi-Scale Gaussian-Language Map for Zero-shot Embodied Navigation and Reasoning
- Title(参考訳): ゼロショットボディードナビゲーションと推論のためのマルチスケールガウス言語マップ
- Authors: Sixian Zhang, Yiyao Wang, Xinhang Song, Keming Zhang, Zijian Xu, Shuqiang Jiang,
- Abstract要約: 本稿では,3つのキーデザインを導入したマルチスケールガウス・ランゲージマップ(GLMap)を提案する。
3Dガウスアンは、タスク関連画像のコンパクトストレージと高速レンダリングを可能にする。
ObjectNav、InstNav、SQAタスクの実験は、GLMapがターゲットナビゲーションとコンテキスト推論を効果的に強化していることを示している。
- 参考スコア(独自算出の注目度): 33.03611808441931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the geometric and semantic structure of environments is essential for embodied navigation and reasoning. Existing semantic mapping methods trade off between explicit geometry and multi-scale semantics, and lack a native interface for large models, thus requiring additional training of feature projection for semantic alignment. To this end, we propose the multi-scale Gaussian-Language Map (GLMap), which introduces three key designs: (1) explicit geometry, (2) multi-scale semantics covering both instance and region concepts, and (3) a dual-modality interface where each semantic unit jointly stores a natural language description and a 3D Gaussian representation. The 3D Gaussians enable compact storage and fast rendering of task-relevant images via Gaussian splatting. To enable efficient incremental construction, we further propose a Gaussian Estimator that analytically derives Gaussian parameters from dense point clouds without gradient-based optimization. Experiments on ObjectNav, InstNav, and SQA tasks show that GLMap effectively enhances target navigation and contextual reasoning, while remaining compatible with large-model-based methods in a zero-shot manner. The code is available at https://github.com/sx-zhang/GLMap.
- Abstract(参考訳): 環境の幾何学的・意味的構造を理解することは、ナビゲーションと推論の具体化に不可欠である。
既存のセマンティックマッピング手法は、明示的な幾何学とマルチスケールセマンティックスの間を行き来し、大きなモデルのネイティブインターフェースが欠如しているため、セマンティックアライメントのための機能プロジェクションのさらなるトレーニングが必要である。
そこで我々は,(1)明示幾何学,(2)インスタンス概念と地域概念を包含するマルチスケール意味論,(3)各セマンティックユニットが自然言語記述と3次元ガウス表現を共同で格納する2次元モダリティインタフェースという,3つの重要な設計を取り入れたマルチスケールガウス・ランゲージマップ(GLMap)を提案する。
3Dガウスアンはガウススプラッティングによるタスク関連画像のコンパクトストレージと高速レンダリングを可能にする。
効率的なインクリメンタルな構成を実現するために,勾配に基づく最適化を伴わずに高密度点雲からガウスパラメータを解析的に導出するガウス推定器を提案する。
ObjectNav、InstNav、SQAタスクの実験では、GLMapはターゲットナビゲーションとコンテキスト推論を効果的に強化する一方で、ゼロショット方式で大規模モデルベースのメソッドと互換性を保っている。
コードはhttps://github.com/sx-zhang/GLMapで入手できる。
関連論文リスト
- Gau-Occ: Geometry-Completed Gaussians for Multi-Modal 3D Occupancy Prediction [40.5891357994769]
Gau-Occは、密度の高いボリューム処理をバイパスするマルチモーダルフレームワークである。
幾何整列した2Dサンプリングとクロスモーダルアライメントにより、マルチビューイメージセマンティクスを統合する。
論文 参考訳(メタデータ) (2026-03-24T06:44:46Z) - GraphGSOcc: Semantic-Geometric Graph Transformer with Dynamic-Static Decoupling for 3D Gaussian Splatting-based Occupancy Prediction [2.3239379129613535]
GraphGSOccは、意味グラフと幾何学グラフを組み合わせ、動的静的オブジェクトを分離する新しいフレームワークである。
SurroundOcc-nuScenes、Occ3D-nuScenes、OpenOcc、KITTIの占有ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-13T06:09:57Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。