論文の概要: TrajRAG: Retrieving Geometric-Semantic Experience for Zero-Shot Object Navigation
- arxiv url: http://arxiv.org/abs/2605.01700v1
- Date: Sun, 03 May 2026 03:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.889646
- Title: TrajRAG: Retrieving Geometric-Semantic Experience for Zero-Shot Object Navigation
- Title(参考訳): TrajRAG: ゼロショットオブジェクトナビゲーションのための幾何学的セマンティックエクスペリエンスの検索
- Authors: Yiyao Wang, Sixian Zhang, Keming Zhang, Xinhang Song, Songjie Du, Shuqiang Jiang,
- Abstract要約: Trajectory RAG (TrajRAG) は、幾何学的意味論的な経験を抽出することによって、大規模モデル推論を強化する検索拡張生成フレームワークである。
本研究では,空間配置や意味的文脈をコンパクトに符号化するトポロジカル・ポロジカル(トポロジカル)軌道表現を提案する。
階層的なチャンキング構造は、同様のトポ極軌道を統一的なサマリーに整理し、粗い微細な検索を可能にする。
- 参考スコア(独自算出の注目度): 32.54352745877628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing zero-shot Object Goal Navigation (ObjectNav) methods often exploit commonsense knowledge from large language or vision-language models to guide navigation. However, such knowledge arises from internet-scale text rather than embodied 3D experience, and episodic observations collected during navigation are typically discarded, preventing the accumulation of lifelong experience. To this end, we propose Trajectory RAG (TrajRAG), a retrieval-augmented generation framework that enhances large-model reasoning by retrieving geometric-semantic experiences. TrajRAG incrementally accumulates episodic observations from past navigation episodes. To structure these observations, we propose a topological-polar (topo-polar) trajectory representation that compactly encodes spatial layouts and semantic contexts, effectively removing redundancies in raw episodic observations. A hierarchical chunking structure further organizes similar topo-polar trajectories into unified summaries, enabling coarse-to-fine retrieval. During navigation, candidate frontiers generate multiple trajectory hypotheses that query TrajRAG for similar past trajectories, guiding large-model reasoning for waypoint selection. New experiences are continually consolidated into TrajRAG, enabling the accumulation of lifelong navigation experience. Experiments on MP3D, HM3D-v1, and HM3D-v2 show that TrajRAG effectively retrieves relevant geometric-semantic experiences and improves zero-shot ObjectNav performance.
- Abstract(参考訳): 既存のゼロショットのObject Goal Navigation(ObjectNav)メソッドは、ナビゲーションをガイドするために、大きな言語や視覚言語モデルからの常識的な知識を利用することが多い。
しかし、そのような知識は3D体験を具現化するのではなく、インターネットスケールのテキストから生まれ、航海中に収集されたエピソディックな観察は一般的には捨てられ、生涯にわたる経験の蓄積を防いでいる。
この目的のために,幾何学的意味的経験を抽出し,大規模モデル推論を強化する検索拡張型生成フレームワークであるTrjectory RAG(TrajRAG)を提案する。
TrajRAGは、過去の航海エピソードから徐々にエピソード的な観察を蓄積する。
本研究では, 空間配置や意味的文脈をコンパクトに符号化し, 生のエピソード観測における冗長性を効果的に除去するトポロジカル・ポーラ(トポポーラ)軌道表現を提案する。
階層的なチャンキング構造は、同様のトポ極軌道を統一的なサマリーに整理し、粗い微細な検索を可能にする。
ナビゲーション中、候補フロンティアは複数の軌道仮説を生成し、TrajRAGに同様の過去の軌道を問い合わせ、ウェイポイント選択のための大モデル推論を導く。
新たなエクスペリエンスはTrajRAGに継続的に統合され、生涯にわたるナビゲーションエクスペリエンスの蓄積を可能にします。
MP3D, HM3D-v1, HM3D-v2の実験により、TrajRAGは関係する幾何学的意味的経験を効果的に回収し、ゼロショットObjectNavの性能を向上させることが示された。
関連論文リスト
- NaviRAG: Towards Active Knowledge Navigation for Retrieval-Augmented Generation [50.16741209529908]
NaviRAGは、パッシブセグメント検索からアクティブな知識ナビゲーションに移行する新しいフレームワークである。
NaviRAGは従来のRAGベースラインよりも検索リコールとエンドツーエンドの応答性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2026-04-14T14:07:01Z) - Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos [87.15961946494629]
本稿では,Web ベースのルームツアービデオから派生した大規模ビデオ教育フレームワークを提案する。
既存のデータセットとは異なり、我々のフレームワークは3Dで再構成されたオープンエンドな記述リッチな軌跡とアクションリッチな軌跡を統合している。
この研究の鍵となる拡張は暗黙の幾何学的表現の取り込みであり、それは、脆弱な3D再構成を必要とせず、RGBフレームから直接空間的手がかりを抽出するものである。
論文 参考訳(メタデータ) (2026-03-10T06:47:38Z) - NavDreamer: Video Models as Zero-Shot 3D Navigators [10.105345998118915]
本稿では,生成的映像モデルを言語命令と軌跡間の普遍的なインターフェースとして活用する3次元ナビゲーションのための映像ベースのフレームワークを提案する。
我々の主要な仮説は、映像が情報と物理力学をエンコードし、インターネットスケールの可用性と組み合わせることで、ナビゲーションにおけるゼロショットの強力な一般化を可能にする、というものである。
論文 参考訳(メタデータ) (2026-02-10T13:24:12Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文 参考訳(メタデータ) (2025-04-25T00:22:17Z) - ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments [1.9566515100805284]
VLN-CEは、自然言語命令に基づいて連続空間をナビゲートするエージェントを必要とする。
本稿では,マルチグラニュラリティ認識と命令認識推論による性能向上を目的としたナビゲーションブースターST-Boosterを紹介する。
大規模な実験と性能解析を行い、ST-Boosterが既存の最先端手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-04-14T03:29:08Z) - SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [12.152477445938759]
連続環境におけるVLN(Vision-and-Language Navigation)は、制約のない3D空間をナビゲートしながら自然言語命令を解釈するエージェントを必要とする。
既存のVLN-CEフレームワークは、2段階のアプローチに依存している。
マルチモーダル大言語モデル(MLLM)に基づくナビゲータと拡張されたウェイポイント予測器を統合したゼロショットVLN-CEフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T05:32:57Z) - Holistic Semantic Representation for Navigational Trajectory Generation [33.55971756543447]
ナビゲーション生成のためのHOSER(Holistic Semantic Representation)フレームワークを開発した。
我々は,HOSERが最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-01-06T03:11:12Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。