論文の概要: SeqWalker: Sequential-Horizon Vision-and-Language Navigation with Hierarchical Planning
- arxiv url: http://arxiv.org/abs/2601.04699v1
- Date: Thu, 08 Jan 2026 08:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.100174
- Title: SeqWalker: Sequential-Horizon Vision-and-Language Navigation with Hierarchical Planning
- Title(参考訳): SeqWalker: 階層型計画による逐次水平視・照準ナビゲーション
- Authors: Zebin Han, Xudong Wang, Baichen Liu, Qi Lyu, Zhenduo Shang, Jiahua Dong, Lianqing Liu, Zhi Han,
- Abstract要約: Sequential-Horizon Vision-and-Language Navigation (SH-VLN) は難しいシナリオを示す。
現在のヴィジュアル・アンド・ランゲージナビゲーションモデルでは、このようなマルチタスク命令による性能劣化が顕著である。
階層型計画フレームワーク上に構築されたナビゲーションモデルであるSeqWalkerを提案する。
- 参考スコア(独自算出の注目度): 20.14137096976666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential-Horizon Vision-and-Language Navigation (SH-VLN) presents a challenging scenario where agents should sequentially execute multi-task navigation guided by complex, long-horizon language instructions. Current vision-and-language navigation models exhibit significant performance degradation with such multi-task instructions, as information overload impairs the agent's ability to attend to observationally relevant details. To address this problem, we propose SeqWalker, a navigation model built on a hierarchical planning framework. Our SeqWalker features: i) A High-Level Planner that dynamically selects global instructions into contextually relevant sub-instructions based on the agent's current visual observations, thus reducing cognitive load; ii) A Low-Level Planner incorporating an Exploration-Verification strategy that leverages the inherent logical structure of instructions for trajectory error correction. To evaluate SH-VLN performance, we also extend the IVLN dataset and establish a new benchmark. Extensive experiments are performed to demonstrate the superiority of the proposed SeqWalker.
- Abstract(参考訳): SH-VLN(Sequential-Horizon Vision-and-Language Navigation)は、エージェントが複雑な長距離言語命令でガイドされるマルチタスクナビゲーションを順次実行するという、困難なシナリオを示す。
現在のヴィジュアル・アンド・ランゲージのナビゲーションモデルは、情報過負荷によってエージェントが観察に関係のある詳細に出席する能力が損なわれるため、そのようなマルチタスクの命令で大幅な性能低下を示す。
この問題に対処するために,階層的計画フレームワーク上に構築されたナビゲーションモデルであるSeqWalkerを提案する。
SeqWalkerの機能:
一 エージェントの現在の視覚的観察に基づいて、文脈的に関係のあるサブインストラクションにグローバルな指示を動的に選択し、認知負荷を低減させるハイレベルプランナー
二 軌道誤り訂正のための命令の固有の論理構造を利用する探索検証戦略を取り入れた低レベルプランナー。
SH-VLNの性能を評価するため、IVLNデータセットを拡張し、新しいベンチマークを確立する。
提案したSeqWalkerの優位性を示すために、広範囲な実験が行われた。
関連論文リスト
- NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction [12.352236127154761]
本稿では,高レベル言語計画と予測的世界モデルイマジネーションを統合するビジョン・ランゲージ・モデル(VLM)について紹介する。
我々のアプローチでは、単一のVLMが同時に計画と予測の監視を行うことができる。
私たちの研究は、暗黙の時間的予測で明示的な言語計画を融合させ、よりインテリジェントで有能なエンボディエージェントの道を開く、という大きな可能性を浮き彫りにしています。
論文 参考訳(メタデータ) (2025-12-01T11:24:16Z) - Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents [43.5771856761934]
VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:50:30Z) - Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method [94.74003109176581]
Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。
我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
論文 参考訳(メタデータ) (2024-12-12T09:08:13Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。