論文の概要: When Engineering Outruns Intelligence: A Re-evaluation of Instruction-Guided Navigation
- arxiv url: http://arxiv.org/abs/2507.20021v1
- Date: Sat, 26 Jul 2025 17:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.68029
- Title: When Engineering Outruns Intelligence: A Re-evaluation of Instruction-Guided Navigation
- Title(参考訳): エンジニアリングがインテリジェンスを追い越すとき:指導誘導ナビゲーションの再評価
- Authors: Matin Aghaei, Mohammad Ali Alomrani, Yingxue Zhang, Mahdi Biparva,
- Abstract要約: 我々は、InstructNavを、ダイナミックチェーン・オブ・ナビゲーションプロンプト、オープンボキャブラリGLEE検出器、直感サーチマップから取り除き、それらを単純な距離重み付きフロンティアエクスプローラー(DWFE)で置き換える。
この幾何学のみは成功率を58.0%から61.1%に引き上げ、SPLを20.9%から36.4%に引き上げる。
以上の結果から,LLM推論ではなくフロンティア幾何がほとんどの報告されたゲインを駆動していることが示唆された。
- 参考スコア(独自算出の注目度): 9.31776371252164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are often credited with recent leaps in ObjectGoal Navigation, yet the extent to which they improve planning remains unclear. We revisit this question on the HM3D-v1 validation split. First, we strip InstructNav of its Dynamic Chain-of-Navigation prompt, open-vocabulary GLEE detector and Intuition saliency map, and replace them with a simple Distance-Weighted Frontier Explorer (DWFE). This geometry-only heuristic raises Success from 58.0% to 61.1% and lifts SPL from 20.9% to 36.0% over 2 000 validation episodes, outperforming all previous training-free baselines. Second, we add a lightweight language prior (SHF); on a 200-episode subset this yields a further +2% Success and +0.9% SPL while shortening paths by five steps on average. Qualitative trajectories confirm the trend: InstructNav back-tracks and times-out, DWFE reaches the goal after a few islands, and SHF follows an almost straight route. Our results indicate that frontier geometry, not emergent LLM reasoning, drives most reported gains, and suggest that metric-aware prompts or offline semantic graphs are necessary before attributing navigation success to "LLM intelligence."
- Abstract(参考訳): 大規模言語モデル(LLM)は、ObjectGoal Navigationの最近の飛躍によってしばしばクレジットされるが、計画を改善する程度はまだ不明である。
HM3D-v1検証分割に関して、この問題を再考する。
まず、InstructNavを、そのDynamic Chain-of-Navigation prompt、open-vocabulary GLEE detector、Intuition saliency mapから取り除き、それらをDWFE(Distance-Weighted Frontier Explorer)に置き換える。
この幾何学のみのヒューリスティックは成功率を58.0%から61.1%に引き上げ、SPLを20.9%から36.0%に引き上げ、これまでのトレーニングなしのベースラインを上回った。
第二に、軽量言語プリエント(SHF)を追加し、200エピソードのサブセットでは、パスを平均5ステップ短縮しながら、さらに+2%の成功と+0.9%のSPLが得られる。
InstructNavのバックトラックとタイムアウト、DWFEはいくつかの島でゴールに達し、SHFはほぼ直線のルートを辿る。
以上の結果から,LLM推論ではなくフロンティア幾何がほとんどの報告されたゲインを駆動し,ナビゲーション成功を「LLMインテリジェンス」に導くためには,メトリック認識プロンプトやオフラインセマンティックグラフが必要であることが示唆された。
関連論文リスト
- Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - Fly0: Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation [14.466092698477858]
現在のVisual-Language Navigation (VLN) 手法はセマンティック理解と制御精度のトレードオフに直面している。
幾何学的計画から意味論的推論を分離するフレームワークFly0を提案する。
Fly0は計算オーバーヘッドを減らし、システムの安定性を向上させる。
論文 参考訳(メタデータ) (2026-02-02T09:06:50Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - ZTRS: Zero-Imitation End-to-end Autonomous Driving with Trajectory Scoring [52.195295396336526]
ZTRS(Zero-Imitation End-to-End Autonomous Driving with Trajectory Scoring)は、情報を失うことなくセンサー入力と堅牢な計画のためのRLトレーニングという、両方の世界の強みを組み合わせたフレームワークである。
ZTRSは、Navtest、Navhard、HUGSIMの3つのベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-10-28T06:26:36Z) - TurnBack: A Geospatial Route Cognition Benchmark for Large Language Models through Reverse Route [45.16008377814563]
世界中の12の都市から36000のルートからなる大規模評価データセットを作成しました。
自然言語命令をナビゲーションルートに変換する新しいツールであるPathBuilderを紹介する。
経路反転の課題に対して,11のSOTA (State-of-the-art) LLMを厳格に評価する。
論文 参考訳(メタデータ) (2025-09-17T15:00:03Z) - MLFM: Multi-Layered Feature Maps for Richer Language Understanding in Zero-Shot Semantic Navigation [25.63797039823049]
LangNavはオープンソースのマルチオブジェクトナビゲーションデータセットで、自然言語のゴール記述がある。
MLFMは、事前訓練された視覚言語機能からクエリ可能な多層セマンティックマップを構築する。
LangNavの実験では、MLFMは最先端のゼロショットマッピングベースのナビゲーションベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-09T21:46:43Z) - RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models [36.39389224168802]
批判的だが調査の不十分な方向は、これらの課題を克服するための探索の時間的な終了である。
RATE-Nav, Region-Aware Termination-Enhanced Methodを提案する。
幾何予測領域分割アルゴリズムと探索率計算のための領域ベース探索推定アルゴリズムを含む。
67.8%の成功率、31.3%のSPLをHM3Dデータセットで達成している。
論文 参考訳(メタデータ) (2025-06-03T01:15:00Z) - EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。
EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [45.87909960783996]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel [83.7466618084902]
本稿では,高品質かつ大規模な航法軌道対を生成する自己精製型データフライホイール(SRDF)を提案する。
実験により, 数回のフライホイールラウンドの後, ナビゲータは従来のR2Rテストセットにおいて, 70%から78%のSPLの性能境界を上昇させることを示した。
このプロセスは、以前のVLN命令生成方法よりも23.5から26.2へのSPICE増加によって証明された優れたジェネレータをもたらす。
論文 参考訳(メタデータ) (2024-12-11T15:32:24Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Rethinking the Spatial Route Prior in Vision-and-Language Navigation [29.244758196643307]
VLN(Vision-and-Language Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。
この研究は、VLNのタスクを、これまで無視されていた側面、すなわちナビゲーションシーンの前の空間ルートから解決する。
論文 参考訳(メタデータ) (2021-10-12T03:55:43Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。