論文の概要: MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation
- arxiv url: http://arxiv.org/abs/2602.05467v1
- Date: Thu, 05 Feb 2026 09:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.859033
- Title: MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation
- Title(参考訳): MerNav: ゼロショットオブジェクトゴールナビゲーションのための高一般化可能なメモリエグゼクティブレビューフレームワーク
- Authors: Dekang Qi, Shuang Zeng, Xinyuan Chang, Feng Xiong, Shichao Xie, Xiaolong Wu, Mu Xu,
- Abstract要約: 視覚言語ナビゲーションのためのメモリ・エクオート・リビュー・フレームワークを提案する。
情報サポートを提供する階層型メモリモジュール、定期的な意思決定と行動を行う実行モジュール、異常な状況や行動を修正するためのレビューモジュールの3つで構成されている。
4つのデータセットで、平均SRは、すべてのベースライン手法と比較して、7%と5%の絶対的な改善を達成しました。
MP3D と HM3D_OVON のデータセットでは,本手法は全 TF 法を上回り,全 SFT 法を上回りました。
- 参考スコア(独自算出の注目度): 18.392451998549614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Language Navigation (VLN) is one of the fundamental capabilities for embodied intelligence and a critical challenge that urgently needs to be addressed. However, existing methods are still unsatisfactory in terms of both success rate (SR) and generalization: Supervised Fine-Tuning (SFT) approaches typically achieve higher SR, while Training-Free (TF) approaches often generalize better, but it is difficult to obtain both simultaneously. To this end, we propose a Memory-Execute-Review framework. It consists of three parts: a hierarchical memory module for providing information support, an execute module for routine decision-making and actions, and a review module for handling abnormal situations and correcting behavior. We validated the effectiveness of this framework on the Object Goal Navigation task. Across 4 datasets, our average SR achieved absolute improvements of 7% and 5% compared to all baseline methods under TF and Zero-Shot (ZS) settings, respectively. On the most commonly used HM3D_v0.1 and the more challenging open vocabulary dataset HM3D_OVON, the SR improved by 8% and 6%, under ZS settings. Furthermore, on the MP3D and HM3D_OVON datasets, our method not only outperformed all TF methods but also surpassed all SFT methods, achieving comprehensive leadership in both SR (5% and 2%) and generalization.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、インテリジェンスを具現化するための基本的な機能のひとつであり、緊急に対処する必要がある重要な課題である。
しかし、既存の手法は成功率(SR)と一般化の両面において未だに満足できない: 監督された細調整(SFT)アプローチは一般的により高いSRを達成するが、訓練自由(TF)アプローチはよく一般化されるが、両方を同時に得ることは困難である。
この目的のために,メモリ・エクスキュート・リビュー・フレームワークを提案する。
情報サポートを提供する階層型メモリモジュール、定期的な意思決定と行動を行う実行モジュール、異常な状況や行動を修正するためのレビューモジュールの3つで構成されている。
我々は,Object Goal Navigationタスクにおいて,このフレームワークの有効性を検証した。
4つのデータセットで、平均SRは、TFとZero-Shot(ZS)設定下のすべてのベースライン手法と比較して、7%と5%の絶対的な改善を達成しました。
最もよく使われるHM3D_v0.1と、より難しいオープン語彙データセットHM3D_OVONでは、ZS設定下でSRは8%と6%改善した。
さらに,MP3D と HM3D_OVON データセットでは,全 TF 法を上回り,全 SFT 法を上回り,SR (5% と 2%) と一般化の両方において総合的なリーダーシップを達成した。
関連論文リスト
- CODE-DITING: A Reasoning-Based Metric for Functional Alignment in Code Evaluation [22.06897150825726]
本稿では,精度,効率,説明性を両立させるコード評価手法であるCODE-DIINGを提案する。
我々は,DeepSeek-R1671BからCODE-DIING 1.5Bおよび7Bモデルへの推論能力を効果的に伝達するデータ蒸留フレームワークを開発した。
推論プロセスにおける過半数の投票戦略により、CODE-DIING 1.5Bは、同じパラメータで全てのモデルを上回ります。
論文 参考訳(メタデータ) (2025-05-26T04:29:14Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - The Best Instruction-Tuning Data are Those That Fit [17.401088816596054]
事前訓練された大言語モデル(LLM)から強機能を引き出すためには,SFT(Supervised Fine-tuning)データが必要である。
GRAPE*は,対象モデルの特異な特徴を考慮に入れた,新しいSFTフレームワークである。
各命令に対して、様々なLSMからの応答を収集し、ターゲットモデルによって測定された最も高い確率の命令を選択する。
論文 参考訳(メタデータ) (2025-02-06T16:31:21Z) - SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection [2.0755366440393743]
Few-Shot Object Detection (FSOD) において、オブジェクトクラスの融合と忘れは重要な課題である。
本稿では,相互情報機能を導入した新しいサブモジュール型相互情報学習フレームワークを提案する。
提案手法は,バックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
論文 参考訳(メタデータ) (2024-07-02T20:53:43Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。