論文の概要: Constraint-Aware Zero-Shot Vision-Language Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2412.10137v1
- Date: Fri, 13 Dec 2024 13:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:54.307984
- Title: Constraint-Aware Zero-Shot Vision-Language Navigation in Continuous Environments
- Title(参考訳): 連続環境における制約対応ゼロショット視線ナビゲーション
- Authors: Kehan Chen, Dong An, Yan Huang, Rongtao Xu, Yifei Su, Yonggen Ling, Ian Reid, Liang Wang,
- Abstract要約: ゼロショット環境下でのビジョンランゲージナビゲーション(VLN-CE)の課題に対処する。
本稿では,ゼロショットVLN-CEを逐次的かつ制約対応なサブインストラクション完了プロセスとして再構成するConstraint-Aware Navigator (CA-Nav)を提案する。
CA-Navは2つのコアモジュールを使用して、サブインストラクションをナビゲーションプランに継続的に変換する。
- 参考スコア(独自算出の注目度): 20.281589007453437
- License:
- Abstract: We address the task of Vision-Language Navigation in Continuous Environments (VLN-CE) under the zero-shot setting. Zero-shot VLN-CE is particularly challenging due to the absence of expert demonstrations for training and minimal environment structural prior to guide navigation. To confront these challenges, we propose a Constraint-Aware Navigator (CA-Nav), which reframes zero-shot VLN-CE as a sequential, constraint-aware sub-instruction completion process. CA-Nav continuously translates sub-instructions into navigation plans using two core modules: the Constraint-Aware Sub-instruction Manager (CSM) and the Constraint-Aware Value Mapper (CVM). CSM defines the completion criteria for decomposed sub-instructions as constraints and tracks navigation progress by switching sub-instructions in a constraint-aware manner. CVM, guided by CSM's constraints, generates a value map on the fly and refines it using superpixel clustering to improve navigation stability. CA-Nav achieves the state-of-the-art performance on two VLN-CE benchmarks, surpassing the previous best method by 12 percent and 13 percent in Success Rate on the validation unseen splits of R2R-CE and RxR-CE, respectively. Moreover, CA-Nav demonstrates its effectiveness in real-world robot deployments across various indoor scenes and instructions.
- Abstract(参考訳): ゼロショット環境下でのビジョンランゲージナビゲーション(VLN-CE)の課題に対処する。
ゼロショットVLN-CEは、訓練のための専門的なデモンストレーションが無く、ナビゲーションをガイドする前の環境構造が最小限であるため、特に困難である。
これらの課題に対処するために,ゼロショットVLN-CEを逐次的かつ制約対応のサブ命令補完プロセスとして再構成するConstraint-Aware Navigator (CA-Nav)を提案する。
CA-Navは、Constraint-Aware Sub-Instruction Manager(CSM)とConstraint-Aware Value Mapper(CVM)という2つのコアモジュールを使用して、サブインストラクションをナビゲーション計画に継続的に変換する。
CSMは、分割されたサブインストラクションの完了基準を制約として定義し、サブインストラクションを制約対応で切り替えることによってナビゲーションの進捗を追跡する。
CSMの制約によってガイドされるCVMは、オンザフライで値マップを生成し、スーパーピクセルクラスタリングを使用してそれを洗練し、ナビゲーションの安定性を向上させる。
CA-Navは2つのVLN-CEベンチマークの最先端性能を達成し、それぞれR2R-CEとRxR-CEの未確認分割に対する成功率の12%と13%を上回った。
さらに、CA-Navは、屋内の様々なシーンや指示にまたがる実世界のロボット展開において、その効果を実証している。
関連論文リスト
- Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments [37.20272055902246]
現実世界のナビゲーションは、しばしばドアや移動した物体、予測不可能な実体などの予期せぬ障害に対処する。
本稿では,Unexpected Obstructions (R2R-UNO)を用いたR2R(R2R-UNO)を提案する。
R2R-UNOの実験では、最先端のVLN手法がこのようなミスマッチに直面した場合、必然的に重大な問題に遭遇し、適応的な操作よりも厳格に指示に従うことが示されている。
論文 参考訳(メタデータ) (2024-07-31T08:55:57Z) - DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning [40.87681228125296]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、見えない環境でナビゲートする必要がある。
タスク完了のためには、エージェントは、指示、観察、ナビゲーション履歴を含む様々なナビゲーションモダリティを調整および統合する必要がある。
論文 参考訳(メタデータ) (2024-04-02T14:40:04Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。