論文の概要: When Engineering Outruns Intelligence: A Re-evaluation of Instruction-Guided Navigation
- arxiv url: http://arxiv.org/abs/2507.20021v1
- Date: Sat, 26 Jul 2025 17:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.68029
- Title: When Engineering Outruns Intelligence: A Re-evaluation of Instruction-Guided Navigation
- Title(参考訳): エンジニアリングがインテリジェンスを追い越すとき:指導誘導ナビゲーションの再評価
- Authors: Matin Aghaei, Mohammad Ali Alomrani, Yingxue Zhang, Mahdi Biparva,
- Abstract要約: 我々は、InstructNavを、ダイナミックチェーン・オブ・ナビゲーションプロンプト、オープンボキャブラリGLEE検出器、直感サーチマップから取り除き、それらを単純な距離重み付きフロンティアエクスプローラー(DWFE)で置き換える。
この幾何学のみは成功率を58.0%から61.1%に引き上げ、SPLを20.9%から36.4%に引き上げる。
以上の結果から,LLM推論ではなくフロンティア幾何がほとんどの報告されたゲインを駆動していることが示唆された。
- 参考スコア(独自算出の注目度): 9.31776371252164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are often credited with recent leaps in ObjectGoal Navigation, yet the extent to which they improve planning remains unclear. We revisit this question on the HM3D-v1 validation split. First, we strip InstructNav of its Dynamic Chain-of-Navigation prompt, open-vocabulary GLEE detector and Intuition saliency map, and replace them with a simple Distance-Weighted Frontier Explorer (DWFE). This geometry-only heuristic raises Success from 58.0% to 61.1% and lifts SPL from 20.9% to 36.0% over 2 000 validation episodes, outperforming all previous training-free baselines. Second, we add a lightweight language prior (SHF); on a 200-episode subset this yields a further +2% Success and +0.9% SPL while shortening paths by five steps on average. Qualitative trajectories confirm the trend: InstructNav back-tracks and times-out, DWFE reaches the goal after a few islands, and SHF follows an almost straight route. Our results indicate that frontier geometry, not emergent LLM reasoning, drives most reported gains, and suggest that metric-aware prompts or offline semantic graphs are necessary before attributing navigation success to "LLM intelligence."
- Abstract(参考訳): 大規模言語モデル(LLM)は、ObjectGoal Navigationの最近の飛躍によってしばしばクレジットされるが、計画を改善する程度はまだ不明である。
HM3D-v1検証分割に関して、この問題を再考する。
まず、InstructNavを、そのDynamic Chain-of-Navigation prompt、open-vocabulary GLEE detector、Intuition saliency mapから取り除き、それらをDWFE(Distance-Weighted Frontier Explorer)に置き換える。
この幾何学のみのヒューリスティックは成功率を58.0%から61.1%に引き上げ、SPLを20.9%から36.0%に引き上げ、これまでのトレーニングなしのベースラインを上回った。
第二に、軽量言語プリエント(SHF)を追加し、200エピソードのサブセットでは、パスを平均5ステップ短縮しながら、さらに+2%の成功と+0.9%のSPLが得られる。
InstructNavのバックトラックとタイムアウト、DWFEはいくつかの島でゴールに達し、SHFはほぼ直線のルートを辿る。
以上の結果から,LLM推論ではなくフロンティア幾何がほとんどの報告されたゲインを駆動し,ナビゲーション成功を「LLMインテリジェンス」に導くためには,メトリック認識プロンプトやオフラインセマンティックグラフが必要であることが示唆された。
関連論文リスト
- RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models [36.39389224168802]
批判的だが調査の不十分な方向は、これらの課題を克服するための探索の時間的な終了である。
RATE-Nav, Region-Aware Termination-Enhanced Methodを提案する。
幾何予測領域分割アルゴリズムと探索率計算のための領域ベース探索推定アルゴリズムを含む。
67.8%の成功率、31.3%のSPLをHM3Dデータセットで達成している。
論文 参考訳(メタデータ) (2025-06-03T01:15:00Z) - EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。
EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [45.87909960783996]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel [83.7466618084902]
本稿では,高品質かつ大規模な航法軌道対を生成する自己精製型データフライホイール(SRDF)を提案する。
実験により, 数回のフライホイールラウンドの後, ナビゲータは従来のR2Rテストセットにおいて, 70%から78%のSPLの性能境界を上昇させることを示した。
このプロセスは、以前のVLN命令生成方法よりも23.5から26.2へのSPICE増加によって証明された優れたジェネレータをもたらす。
論文 参考訳(メタデータ) (2024-12-11T15:32:24Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Rethinking the Spatial Route Prior in Vision-and-Language Navigation [29.244758196643307]
VLN(Vision-and-Language Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。
この研究は、VLNのタスクを、これまで無視されていた側面、すなわちナビゲーションシーンの前の空間ルートから解決する。
論文 参考訳(メタデータ) (2021-10-12T03:55:43Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。