論文の概要: R2F: Repurposing Ray Frontiers for LLM-free Object Navigation
- arxiv url: http://arxiv.org/abs/2603.08475v1
- Date: Mon, 09 Mar 2026 15:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.283785
- Title: R2F: Repurposing Ray Frontiers for LLM-free Object Navigation
- Title(参考訳): R2F: LLMフリーオブジェクトナビゲーションのための光フロンティアの再利用
- Authors: Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani,
- Abstract要約: VLM(Vision-Language Models)とLLM(Large Language Models)は、現在ではエンドツーエンドのポリシーではなく、ハイレベルな意思決定者として広く使われている。
室内でのオープン語彙オブジェクトナビゲーションのためのLLMフリーフレームワークを開発した。
Habitat-simおよび実際のロボットプラットフォームにおける実験は、リアルタイム実行による最先端のゼロショットパフォーマンスの競争力を示す。
- 参考スコア(独自算出の注目度): 1.4755786263360526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot open-vocabulary object navigation has progressed rapidly with the emergence of large Vision-Language Models (VLMs) and Large Language Models (LLMs), now widely used as high-level decision-makers instead of end-to-end policies. Although effective, such systems often rely on iterative large-model queries at inference time, introducing latency and computational overhead that limit real-time deployment. To address this problem, we repurpose ray frontiers (R2F), a recently proposed frontier-based exploration paradigm, to develop an LLM-free framework for indoor open-vocabulary object navigation. While ray frontiers were originally used to bias exploration using semantic cues carried along rays, we reinterpret frontier regions as explicit, direction-conditioned semantic hypotheses that serve as navigation goals. Language-aligned features accumulated along out-of-range rays are stored sparsely at frontiers, where each region maintains multiple directional embeddings encoding plausible unseen content. In this way, navigation then reduces to embedding-based frontier scoring and goal tracking within a classical mapping and planning pipeline, eliminating iterative large-model reasoning. We further introduce R2F-VLN, a lightweight extension for free-form language instructions using syntactic parsing and relational verification without additional VLM or LLM components. Experiments in Habitat-sim and on a real robotic platform demonstrate competitive state-of-the-art zero-shot performance with real-time execution, achieving up to 6 times faster runtime than VLM-based alternatives.
- Abstract(参考訳): ゼロショットのオープンボキャブラリオブジェクトナビゲーションは、大規模なビジョンランゲージモデル(VLM)と大規模言語モデル(LLM)の出現によって急速に進歩し、現在ではエンドツーエンドのポリシーではなく、ハイレベルな意思決定者として広く使われている。
有効ではあるが、そのようなシステムはしばしば推論時に反復的な大モデルクエリに頼り、リアルタイムデプロイメントを制限する遅延と計算オーバーヘッドを導入する。
この問題に対処するために、最近提案されたフロンティアに基づく探索パラダイムであるレイフロンティア(R2F)を再利用し、屋内オープン語彙オブジェクトナビゲーションのためのLLMフリーフレームワークを開発する。
線フロンティアはもともと、線に沿って運ばれるセマンティックキューを用いて、偏見探索に用いられたが、我々はフロンティア領域を、ナビゲーション目標として機能する明示的で方向条件のセマンティック仮説として再解釈した。
アウト・オブ・レンジ線に沿って蓄積された言語対応機能は、フロンティアにわずかに格納され、各リージョンは、可視で見えないコンテンツをコードする複数の方向の埋め込みを保持する。
このようにして、ナビゲーションは古典的なマッピングと計画パイプライン内の埋め込みベースのフロンティアスコアとゴールトラッキングに還元され、反復的な大モデル推論が排除される。
さらに,R2F-VLNを導入し,構文解析と関係性検証を,付加的なVLMやLLMコンポーネントを使わずに実現した。
Habitat-simの実験と実際のロボットプラットフォームによる実験は、VLMベースの代替よりも最大6倍高速な実行を実現する、リアルタイム実行による最先端のゼロショットパフォーマンスの競争力を示す。
関連論文リスト
- From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation [0.7734726150561086]
Object-Goal Navigation(ObjectNav)は、エージェントが未知の環境で対象のオブジェクトカテゴリを見つけてナビゲートする必要がある。
我々は,LLMに基づく意味推論とハイブリッドトポロジカルグリッドマッピングシステムを統合することにより,リアクティブAIから"マップベースAI"への移行を提案する。
本フレームワークでは,Llama-2モデルを用いて,言語化された対象観測から意味領域のカテゴリと目的存在確率を推定する。
論文 参考訳(メタデータ) (2026-03-09T08:27:28Z) - Spatial-VLN: Zero-Shot Vision-and-Language Navigation With Explicit Spatial Perception and Exploration [16.651645602449577]
大規模言語モデル(LLM)を利用した視覚・言語ナビゲーション(VLN)エージェントは、一般化が優れているが、空間認識が不十分である。
本稿では,これらの課題を克服するための知覚誘導探索フレームワークであるSpatial-VLNを提案する。
論文 参考訳(メタデータ) (2026-01-19T06:53:02Z) - Fast-SmartWay: Panoramic-Free End-to-End Zero-Shot Vision-and-Language Navigation [16.632191523127865]
Fast-SmartWayは、パノラマビューやウェイポイント予測不要なエンドツーエンドのゼロショットVLN-CEフレームワークである。
提案手法では,3つの正面RGB-D画像と自然言語命令を組み合わせるだけで,MLLMが直接行動を予測することができる。
論文 参考訳(メタデータ) (2025-11-02T13:21:54Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。