論文の概要: When Engineering Outruns Intelligence: Rethinking Instruction-Guided Navigation
- arxiv url: http://arxiv.org/abs/2507.20021v2
- Date: Sat, 27 Sep 2025 04:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.131906
- Title: When Engineering Outruns Intelligence: Rethinking Instruction-Guided Navigation
- Title(参考訳): エンジニアリングがインテリジェンスを追い越すとき - インストラクションガイドによるナビゲーションの再考
- Authors: Matin Aghaei, Lingfeng Zhang, Mohammad Ali Alomrani, Mahdi Biparva, Yingxue Zhang,
- Abstract要約: 最近のObjectNavシステムは、大きなゼロショットゲインに対して大きな言語モデル(LLM)を信用している。
我々は,インストラクション誘導パイプラインであるInstructNavを再評価することにより,この問題を再考する。
- 参考スコア(独自算出の注目度): 10.827213515727996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent ObjectNav systems credit large language models (LLMs) for sizable zero-shot gains, yet it remains unclear how much comes from language versus geometry. We revisit this question by re-evaluating an instruction-guided pipeline, InstructNav, under a detector-controlled setting and introducing two training-free variants that only alter the action value map: a geometry-only Frontier Proximity Explorer (FPE) and a lightweight Semantic-Heuristic Frontier (SHF) that polls the LLM with simple frontier votes. Across HM3D and MP3D, FPE matches or exceeds the detector-controlled instruction follower while using no API calls and running faster; SHF attains comparable accuracy with a smaller, localized language prior. These results suggest that carefully engineered frontier geometry accounts for much of the reported progress, and that language is most reliable as a light heuristic rather than an end-to-end planner.
- Abstract(参考訳): 最近のObjectNavシステムでは、大きなゼロショットゲイン(英語版)に対して大きな言語モデル(LLM)を信用しているが、言語と幾何学の違いは明らかではない。
我々は、インストラクション誘導パイプラインであるInstructNavを再評価し、検出制御された設定の下で、アクション値マップのみを変更するトレーニングなしの2つの変種を導入することで、この問題を再考する: 幾何学のみのフロンティアプロキシエクスプローラー(FPE)と、単純なフロンティア投票でLLMをポーリングする軽量なセマンティック・ヒューリスティックフロンティア(SHF)である。
HM3DとMP3D全体では、FPEはAPI呼び出しを使わず、より高速に動作しながら、検出制御された命令従者と一致するか、あるいは超える。
これらの結果は、慎重に設計されたフロンティア幾何学が、報告された進歩の多くを担っていることを示唆し、言語は、エンドツーエンドのプランナーというよりも、軽いヒューリスティックとして最も信頼性が高いことを示唆している。
関連論文リスト
- Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - Fly0: Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation [14.466092698477858]
現在のVisual-Language Navigation (VLN) 手法はセマンティック理解と制御精度のトレードオフに直面している。
幾何学的計画から意味論的推論を分離するフレームワークFly0を提案する。
Fly0は計算オーバーヘッドを減らし、システムの安定性を向上させる。
論文 参考訳(メタデータ) (2026-02-02T09:06:50Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - ZTRS: Zero-Imitation End-to-end Autonomous Driving with Trajectory Scoring [52.195295396336526]
ZTRS(Zero-Imitation End-to-End Autonomous Driving with Trajectory Scoring)は、情報を失うことなくセンサー入力と堅牢な計画のためのRLトレーニングという、両方の世界の強みを組み合わせたフレームワークである。
ZTRSは、Navtest、Navhard、HUGSIMの3つのベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-10-28T06:26:36Z) - TurnBack: A Geospatial Route Cognition Benchmark for Large Language Models through Reverse Route [45.16008377814563]
世界中の12の都市から36000のルートからなる大規模評価データセットを作成しました。
自然言語命令をナビゲーションルートに変換する新しいツールであるPathBuilderを紹介する。
経路反転の課題に対して,11のSOTA (State-of-the-art) LLMを厳格に評価する。
論文 参考訳(メタデータ) (2025-09-17T15:00:03Z) - MLFM: Multi-Layered Feature Maps for Richer Language Understanding in Zero-Shot Semantic Navigation [25.63797039823049]
LangNavはオープンソースのマルチオブジェクトナビゲーションデータセットで、自然言語のゴール記述がある。
MLFMは、事前訓練された視覚言語機能からクエリ可能な多層セマンティックマップを構築する。
LangNavの実験では、MLFMは最先端のゼロショットマッピングベースのナビゲーションベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-09T21:46:43Z) - RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models [36.39389224168802]
批判的だが調査の不十分な方向は、これらの課題を克服するための探索の時間的な終了である。
RATE-Nav, Region-Aware Termination-Enhanced Methodを提案する。
幾何予測領域分割アルゴリズムと探索率計算のための領域ベース探索推定アルゴリズムを含む。
67.8%の成功率、31.3%のSPLをHM3Dデータセットで達成している。
論文 参考訳(メタデータ) (2025-06-03T01:15:00Z) - EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。
EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [45.87909960783996]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel [83.7466618084902]
本稿では,高品質かつ大規模な航法軌道対を生成する自己精製型データフライホイール(SRDF)を提案する。
実験により, 数回のフライホイールラウンドの後, ナビゲータは従来のR2Rテストセットにおいて, 70%から78%のSPLの性能境界を上昇させることを示した。
このプロセスは、以前のVLN命令生成方法よりも23.5から26.2へのSPICE増加によって証明された優れたジェネレータをもたらす。
論文 参考訳(メタデータ) (2024-12-11T15:32:24Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Rethinking the Spatial Route Prior in Vision-and-Language Navigation [29.244758196643307]
VLN(Vision-and-Language Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。
この研究は、VLNのタスクを、これまで無視されていた側面、すなわちナビゲーションシーンの前の空間ルートから解決する。
論文 参考訳(メタデータ) (2021-10-12T03:55:43Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。