論文の概要: Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments
- arxiv url: http://arxiv.org/abs/2407.21452v1
- Date: Wed, 31 Jul 2024 08:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:22:17.970922
- Title: Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments
- Title(参考訳): 指示を超えたナビゲーション: 障害物環境における視覚・言語ナビゲーション
- Authors: Haodong Hong, Sen Wang, Zi Huang, Qi Wu, Jiajun Liu,
- Abstract要約: 現実世界のナビゲーションは、しばしばドアや移動した物体、予測不可能な実体などの予期せぬ障害に対処する。
本稿では,Unexpected Obstructions (R2R-UNO)を用いたR2R(R2R-UNO)を提案する。
R2R-UNOの実験では、最先端のVLN手法がこのようなミスマッチに直面した場合、必然的に重大な問題に遭遇し、適応的な操作よりも厳格に指示に従うことが示されている。
- 参考スコア(独自算出の注目度): 37.20272055902246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world navigation often involves dealing with unexpected obstructions such as closed doors, moved objects, and unpredictable entities. However, mainstream Vision-and-Language Navigation (VLN) tasks typically assume instructions perfectly align with the fixed and predefined navigation graphs without any obstructions. This assumption overlooks potential discrepancies in actual navigation graphs and given instructions, which can cause major failures for both indoor and outdoor agents. To address this issue, we integrate diverse obstructions into the R2R dataset by modifying both the navigation graphs and visual observations, introducing an innovative dataset and task, R2R with UNexpected Obstructions (R2R-UNO). R2R-UNO contains various types and numbers of path obstructions to generate instruction-reality mismatches for VLN research. Experiments on R2R-UNO reveal that state-of-the-art VLN methods inevitably encounter significant challenges when facing such mismatches, indicating that they rigidly follow instructions rather than navigate adaptively. Therefore, we propose a novel method called ObVLN (Obstructed VLN), which includes a curriculum training strategy and virtual graph construction to help agents effectively adapt to obstructed environments. Empirical results show that ObVLN not only maintains robust performance in unobstructed scenarios but also achieves a substantial performance advantage with unexpected obstructions.
- Abstract(参考訳): 現実世界のナビゲーションは、しばしばドアや移動した物体、予測不可能な実体などの予期せぬ障害に対処する。
しかしながら、主流のVision-and-Language Navigation (VLN)タスクは、通常、命令は邪魔なしに、固定および事前定義されたナビゲーショングラフと完全に一致していると仮定する。
この仮定は、実際のナビゲーショングラフと与えられた指示の潜在的な相違を見落とし、屋内および屋外のエージェントに大きな障害を引き起こす可能性がある。
この問題に対処するために、ナビゲーショングラフと視覚観測の両方を修正し、UNexpected Obstructions (R2R-UNO)を用いたR2Rという革新的なデータセットとタスクを導入することにより、多様な障害物をR2Rデータセットに統合する。
R2R-UNOは、VLN研究のための命令-現実ミスマッチを生成するために、様々な種類の経路障害を含む。
R2R-UNOの実験では、最先端のVLN手法がこのようなミスマッチに直面した場合、必然的に重大な問題に遭遇し、適応的な操作よりも厳格に指示に従うことが示されている。
そこで本研究では,Obstructed VLN(Obstructed VLN)と呼ばれる新しい手法を提案する。
実証的な結果から、ObVLNは障害のないシナリオで堅牢なパフォーマンスを維持するだけでなく、予期せぬ障害を伴って大幅なパフォーマンスの優位性も達成している。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。