論文の概要: VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
- arxiv url: http://arxiv.org/abs/2512.22342v4
- Date: Fri, 23 Jan 2026 09:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.528348
- Title: VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
- Title(参考訳): VL-LN Bench:アクティブダイアログを用いた長距離ゴール指向ナビゲーションに向けて
- Authors: Wensi Huang, Shaohao Zhu, Meng Wei, Jinming Xu, Xihui Liu, Hanqing Wang, Tai Wang, Feng Zhao, Jiangmiao Pang,
- Abstract要約: Vision Language-Language Navigation (VL-LN)ベンチマークは、ダイアログ対応ナビゲーションモデルのトレーニングと評価のための大規模で自動生成されたデータセットを提供する。
VL−LNは、トレーニング用41k以上の長軸ダイアログ拡張軌道と、エージェントクエリに応答可能なオラクルを備えた自動評価プロトコルとを備える。
- 参考スコア(独自算出の注目度): 51.18508300818979
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Goal Navigation (IIGN), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IIGN extends Instance Goal Navigation (IGN) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/
- Abstract(参考訳): 既存のほとんどのインボディードナビゲーションタスクでは、命令の追従やオブジェクト探索など、命令は明確に定義され曖昧である。
この理想的な設定の下では、エージェントは視覚と言語入力に基づいて効果的なナビゲーション出力を生成するためにのみ必要となる。
しかし、現実世界のナビゲーション命令はしばしば曖昧で曖昧であり、エージェントが不確実性を解決し、アクティブなダイアログを通じてユーザ意図を推測する必要がある。
このギャップに対処するために、対話型インスタンスゴールナビゲーション(IIGN)を提案する。これは、エージェントがナビゲーションアクションを生成するだけでなく、アクティブダイアログを通じて言語出力を生成することを要求するタスクであり、実用的な設定とより密に連携する。
IIGNは、エージェントがナビゲートしながら自然言語の託宣を自由に相談できるようにすることで、インスタンスゴールナビゲーション(IGN)を拡張している。
このタスクに基づいて、大規模で自動生成されたデータセットと、ダイアログ対応ナビゲーションモデルのトレーニングと評価のための包括的な評価プロトコルを提供するVision Language-Language Navigation (VL-LN)ベンチマークを示す。
VL−LNは、トレーニング用41k以上の長軸ダイアログ拡張軌道と、エージェントクエリに応答可能なオラクルを備えた自動評価プロトコルとを備える。
このベンチマークを用いて,ダイアログ機能を備えたナビゲーションモデルをトレーニングし,ベースラインよりも大幅に改善されたことを示す。
ダイアログ可能なエンボディナビゲーションの研究を進めるために、VL-LNの有効性と信頼性をさらに実証する実験と分析を行った。
コードとデータセット:https://0309hws.github.io/VL-LN.github.io/
関連論文リスト
- AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM [13.352875026471445]
スキル認識型VLM(CoINS)による対物対話ナビゲーションを提案する。
我々は、スキルの余裕と具体的な制約パラメータを入力コンテキストに組み込んだ、InterNav-VLMというVLMを微調整する。
生成した高レベルプランを実行するために,強化学習による総合的なスキルライブラリを開発する。
論文 参考訳(メタデータ) (2026-01-07T14:10:46Z) - I2EDL: Interactive Instruction Error Detection and Localization [65.25839671641218]
連続環境(IVLN-CE)における対話型VLNの新たな課題を提案する。
これにより、VLN-CEナビゲーション中にエージェントがユーザと対話し、命令エラーに関する疑念を検証できる。
我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。
論文 参考訳(メタデータ) (2024-06-07T16:52:57Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - VISITRON: Visual Semantics-Aligned Interactively Trained
Object-Navigator [41.060371177425175]
写真リアル環境をナビゲートする対話型ロボットは、視覚・言語ナビゲーション(VLN)の基礎となる課題に直面している
CVDN固有の対話型システムに適したナビゲータであるVISITRONを提案する。
CVDNの性能向上と経験的洞察を得るため,VISITRONと広範囲にわたるアブリケーションを行った。
論文 参考訳(メタデータ) (2021-05-25T00:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。