論文の概要: Rethinking the Spatial Route Prior in Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2110.05728v1
- Date: Tue, 12 Oct 2021 03:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:09:40.508379
- Title: Rethinking the Spatial Route Prior in Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションに先立つ空間経路の再考
- Authors: Xinzhe Zhou, Wei Liu, Yadong Mu
- Abstract要約: VLN(Vision-and-Language Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。
この研究は、VLNのタスクを、これまで無視されていた側面、すなわちナビゲーションシーンの前の空間ルートから解決する。
- 参考スコア(独自算出の注目度): 29.244758196643307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) is a trending topic which aims to
navigate an intelligent agent to an expected position through natural language
instructions. This work addresses the task of VLN from a previously-ignored
aspect, namely the spatial route prior of the navigation scenes. A critically
enabling innovation of this work is explicitly considering the spatial route
prior under several different VLN settings. In a most information-rich case of
knowing environment maps and admitting shortest-path prior, we observe that
given an origin-destination node pair, the internal route can be uniquely
determined. Thus, VLN can be effectively formulated as an ordinary
classification problem over all possible destination nodes in the scenes.
Furthermore, we relax it to other more general VLN settings, proposing a
sequential-decision variant (by abandoning the shortest-path route prior) and
an explore-and-exploit scheme (for addressing the case of not knowing the
environment maps) that curates a compact and informative sub-graph to exploit.
As reported by [34], the performance of VLN methods has been stuck at a plateau
in past two years. Even with increased model complexity, the state-of-the-art
success rate on R2R validation-unseen set has stayed around 62% for single-run
and 73% for beam-search with model-ensemble. We have conducted comprehensive
evaluations on both R2R and R4R, and surprisingly found that utilizing the
spatial route priors may be the key of breaking above-mentioned performance
ceiling. For example, on R2R validation-unseen set, when the number of discrete
nodes explored is about 40, our single-model success rate reaches 73%, and
increases to 78% if a Speaker model is ensembled, which significantly outstrips
previous state-of-the-art VLN-BERT with 3 models ensembled.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。
本研究は, vln の課題を, ナビゲーションシーンの前の空間経路を, 事前に無視した側面から解決するものである。
この研究で重要な革新は、いくつかの異なるVLN設定の下で空間経路を明示的に検討することである。
環境マップを知り,最短経路を事前に認める最も情報に富んだ場合,原点-終点ノードペアが与えられた場合,内部経路は一意に決定できる。
したがって、VLNはシーン内のすべての可能な宛先ノードに対して、通常の分類問題として効果的に定式化することができる。
さらに、より一般的なVLN設定に緩和し、(最短経路を先に放棄することで)シーケンシャル決定のバリエーションと(環境マップを知らない場合に対処する)探索と探索のスキームを提案し、コンパクトで情報に富むサブグラフをキュレートする。
34]により報告されたように,過去2年間,VLN法の性能は高原で停滞している。
モデル複雑性が増大しているにもかかわらず、R2R検証の未確認セットにおける最先端の成功率は、シングルランでは62%、モデルアンサンブルでは73%である。
我々はR2RとR4Rの両方について総合的な評価を行い、上記の性能天井を破る鍵となる空間経路の事前利用が驚くべき結果となった。
例えば、R2Rの検証未確認セットでは、探索された離散ノード数が約40である場合、我々の単一モデルの成功率は73%に達し、話者モデルがアンサンブルされた場合の78%まで増加し、3つのモデルがアンサンブルされた以前のVLN-BERTをはるかに上回る。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments [37.20272055902246]
現実世界のナビゲーションは、しばしばドアや移動した物体、予測不可能な実体などの予期せぬ障害に対処する。
本稿では,Unexpected Obstructions (R2R-UNO)を用いたR2R(R2R-UNO)を提案する。
R2R-UNOの実験では、最先端のVLN手法がこのようなミスマッチに直面した場合、必然的に重大な問題に遭遇し、適応的な操作よりも厳格に指示に従うことが示されている。
論文 参考訳(メタデータ) (2024-07-31T08:55:57Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Correctable Landmark Discovery via Large Models for Vision-Language Navigation [89.15243018016211]
Vision-Language Navigation (VLN) は、ターゲット位置に到達するために、エージェントが言語命令に従う必要がある。
以前のVLNエージェントは、特に探索されていないシーンで正確なモダリティアライメントを行うことができない。
我々は,Large ModEls (CONSOLE) によるコレクタブルLaNdmark DiScOveryと呼ばれる新しいVLNパラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-29T03:05:59Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation [87.03299519917019]
視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。
我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-08-24T21:50:20Z) - Bridging the Gap Between Learning in Discrete and Continuous
Environments for Vision-and-Language Navigation [41.334731014665316]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存の作業のほとんどは、離散的または連続的な環境に焦点を当てている。
ナビゲーション中に候補となるウェイポイントの集合を生成するための予測器を提案する。
予測された経路点を持つ連続環境を航行するエージェントは,低レベル動作を使用するエージェントよりも有意に優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-05T14:56:14Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。