論文の概要: VLN-NF: Feasibility-Aware Vision-and-Language Navigation with False-Premise Instructions
- arxiv url: http://arxiv.org/abs/2604.10533v2
- Date: Sun, 19 Apr 2026 05:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 19:27:32.376592
- Title: VLN-NF: Feasibility-Aware Vision-and-Language Navigation with False-Premise Instructions
- Title(参考訳): VLN-NF:False-Premise命令による実現可能性を考慮した視覚・言語ナビゲーション
- Authors: Hung-Ting Su, Ting-Jun Wang, Jia-Fong Yeh, Min Sun, Winston H. Hsu,
- Abstract要約: VLN-NF(VLN-NF)は、特定の部屋からターゲットが欠落している誤った前提命令を持つベンチマークである。
VLN-NFはスケーラブルなパイプラインによって構築され、LLMを使用してVLN命令を書き直し、VLMでターゲット不在を検証する。
ROAMは2段階のハイブリッドで,LLM/VLM駆動の室内探査と,空き空間のクリアランスによって誘導される。
- 参考スコア(独自算出の注目度): 29.394790594762867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional Vision-and-Language Navigation (VLN) benchmarks assume instructions are feasible and the referenced target exists, leaving agents ill-equipped to handle false-premise goals. We introduce VLN-NF, a benchmark with false-premise instructions where the target is absent from the specified room and agents must navigate, gather evidence through in-room exploration, and explicitly output NOT-FOUND. VLN-NF is constructed via a scalable pipeline that rewrites VLN instructions using an LLM and verifies target absence with a VLM, producing plausible yet factually incorrect goals. We further propose REV-SPL to jointly evaluate room reaching, exploration coverage, and decision correctness. To address this challenge, we present ROAM, a two-stage hybrid that combines supervised room-level navigation with LLM/VLM-driven in-room exploration guided by a free-space clearance prior. ROAM achieves the best REV-SPL among compared methods, while baselines often under-explore and terminate prematurely under unreliable instructions. VLN-NF project page can be found at https://vln-nf.github.io/.
- Abstract(参考訳): 従来のVision-and-Language Navigation (VLN)ベンチマークでは、命令は実現可能であり、参照対象が存在すると仮定している。
VLN-NFは,特定の部屋からターゲットが不在でエージェントがナビゲートし,室内探索を通じて証拠を収集し,NOT-FOUNDを明示的に出力する,前提条件付きベンチマークである。
VLN-NFはスケーラブルなパイプラインによって構築され、LLMを使用してVLN命令を書き直し、VLMでターゲットが不在であることを検証する。
さらに,室内到達,探索,意思決定の正しさを共同評価するためのREV-SPLを提案する。
この課題に対処するため、ROAMは、教師付きルームレベルのナビゲーションとLLM/VLM駆動の室内探索を組み合わせた2段階のハイブリッドである。
ROAMは比較手法の中で最高のREV-SPLを達成し、ベースラインはしばしば未発見であり、信頼できない命令の下で早期に終了する。
VLN-NFプロジェクトページはhttps://vln-nf.github.io/にある。
関連論文リスト
- EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs [41.90732562248243]
VLN(Vision-and-Language Navigation)タスクは、エージェントが3D環境をナビゲートするためのテキスト命令に従う必要がある。
近年の手法では,VLNタスクをゼロショットで解くために,LLM(Crowd-source large language model)を用いている。
我々は、連続環境におけるゼロショットVLNのためのオープンソースのLLMを探求する新しい研究であるOpen-Navを紹介する。
論文 参考訳(メタデータ) (2024-09-27T14:47:18Z) - Correctable Landmark Discovery via Large Models for Vision-Language Navigation [89.15243018016211]
Vision-Language Navigation (VLN) は、ターゲット位置に到達するために、エージェントが言語命令に従う必要がある。
以前のVLNエージェントは、特に探索されていないシーンで正確なモダリティアライメントを行うことができない。
我々は,Large ModEls (CONSOLE) によるコレクタブルLaNdmark DiScOveryと呼ばれる新しいVLNパラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-29T03:05:59Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。