論文の概要: EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval
- arxiv url: http://arxiv.org/abs/2510.18546v1
- Date: Tue, 21 Oct 2025 11:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.452923
- Title: EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval
- Title(参考訳): EfficientNav:ナビゲーションマップキャッシングと検索機能を備えたオンデバイスオブジェクトゴールナビゲーションを目指して
- Authors: Zebin Yang, Sunjian Zheng, Tong Xie, Tianshi Xu, Bo Yu, Fan Wang, Jie Tang, Shaoshan Liu, Meng Li,
- Abstract要約: 大きな言語モデル(LLM)とオンライン構築されたナビゲーションマップを備えたエージェントは、ゼロショットでNavを実行することができる。
既存のエージェントはクラウド上の巨大なLLMに大きく依存しているが、直接小さなLLMに切り替える。
EfficientNavはGPT-4ベースのベースラインよりも11.1%向上したHM3Dベンチマークを実現している。
- 参考スコア(独自算出の注目度): 19.608665433192098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-goal navigation (ObjNav) tasks an agent with navigating to the location of a specific object in an unseen environment. Embodied agents equipped with large language models (LLMs) and online constructed navigation maps can perform ObjNav in a zero-shot manner. However, existing agents heavily rely on giant LLMs on the cloud, e.g., GPT-4, while directly switching to small LLMs, e.g., LLaMA3.2-11b, suffer from significant success rate drops due to limited model capacity for understanding complex navigation maps, which prevents deploying ObjNav on local devices. At the same time, the long prompt introduced by the navigation map description will cause high planning latency on local devices. In this paper, we propose EfficientNav to enable on-device efficient LLM-based zero-shot ObjNav. To help the smaller LLMs better understand the environment, we propose semantics-aware memory retrieval to prune redundant information in navigation maps. To reduce planning latency, we propose discrete memory caching and attention-based memory clustering to efficiently save and re-use the KV cache. Extensive experimental results demonstrate that EfficientNav achieves 11.1% improvement in success rate on HM3D benchmark over GPT-4-based baselines, and demonstrates 6.7x real-time latency reduction and 4.7x end-to-end latency reduction over GPT-4 planner. Our code will be released soon.
- Abstract(参考訳): オブジェクトゴールナビゲーション(ObjNav)は、エージェントが見えない環境で特定のオブジェクトの位置をナビゲートするタスクである。
大きな言語モデル(LLM)とオンライン構築されたナビゲーションマップを備えたエージェントは、ゼロショットでObjNavを実行することができる。
しかし、既存のエージェントはクラウド上の巨大なLCM(例えば、GPT-4)に大きく依存しているが、LLaMA3.2-11bのような小さなLCMに直接切り替える場合、複雑なナビゲーションマップを理解するためのモデル容量が限られており、ローカルデバイスにObjNavを配置できないため、大きな成功率の低下に悩まされている。
同時に、ナビゲーションマップの記述によって導入された長いプロンプトは、ローカルデバイスで高い計画遅延を引き起こす。
本稿では,デバイス上で効率の良いLDMベースのゼロショットObjNavを実現するためのEfficientNavを提案する。
小型のLCMが環境をよりよく理解するために,ナビゲーションマップに冗長な情報を抽出するためのセマンティックス対応メモリ検索を提案する。
計画遅延を低減するため,KVキャッシュを効率よく保存・再利用するために,離散メモリキャッシュとアテンションベースのメモリクラスタリングを提案する。
EfficientNavは、GPT-4ベースラインよりもHM3Dベンチマークが11.1%向上し、リアルタイムレイテンシが6.7倍、エンドツーエンドのレイテンシが4.7倍になった。
私たちのコードはまもなくリリースされるでしょう。
関連論文リスト
- DynaNav: Dynamic Feature and Layer Selection for Efficient Visual Navigation [19.501191923456584]
DynaNavは動的ビジュアルナビゲーションフレームワークで、シーンの複雑さに基づいて機能とレイヤの選択を適用する。
訓練可能なハード機能セレクタを使用してスパース操作を行い、効率と解釈性を高めている。
ViNTと比較すると、DynnaNavはFLOPの2.26倍の減少、42.3%の推論時間、32.8%のメモリ使用率を実現している。
論文 参考訳(メタデータ) (2025-09-26T06:15:31Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - TAS: A Transit-Aware Strategy for Embodied Navigation with Non-Stationary Targets [55.09248760290918]
非定常目標を持つ動的シナリオにおけるナビゲーションのための新しいアルゴリズムを提案する。
我々の新しいTAS(Transit-Aware Strategy)は、具体化されたナビゲーションポリシーをオブジェクトパス情報で強化する。
TASは、ターゲットルートとルートを同期させるエージェントを報酬することで、非定常環境での性能を改善する。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - Deep Learning Aided Packet Routing in Aeronautical Ad-Hoc Networks
Relying on Real Flight Data: From Single-Objective to Near-Pareto
Multi-Objective Optimization [79.96177511319713]
航空アドホックネットワーク(AANET)のルーティングを支援するために、ディープラーニング(DL)を起動する。
フォワードノードによって観測された局所的な地理的情報を最適な次のホップを決定するために必要な情報にマッピングするために、ディープニューラルネットワーク(DNN)が考案される。
DL支援ルーティングアルゴリズムを多目的シナリオに拡張し,遅延を最小化し,経路容量を最大化し,経路寿命を最大化する。
論文 参考訳(メタデータ) (2021-10-28T14:18:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。