論文の概要: Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes
- arxiv url: http://arxiv.org/abs/2308.03244v1
- Date: Mon, 7 Aug 2023 01:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:40:36.662899
- Title: Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes
- Title(参考訳): Mind the Gap: Oracleの成功ルートを再考することで、ビジョンとランゲージのナビゲーションの成功率を改善する
- Authors: Chongyang Zhao, Yuankai Qi and Qi Wu
- Abstract要約: Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
- 参考スコア(独自算出の注目度): 25.944819618283613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) aims to navigate to the target location
by following a given instruction. Unlike existing methods focused on predicting
a more accurate action at each step in navigation, in this paper, we make the
first attempt to tackle a long-ignored problem in VLN: narrowing the gap
between Success Rate (SR) and Oracle Success Rate (OSR). We observe a
consistently large gap (up to 9%) on four state-of-the-art VLN methods across
two benchmark datasets: R2R and REVERIE. The high OSR indicates the robot agent
passes the target location, while the low SR suggests the agent actually fails
to stop at the target location at last. Instead of predicting actions directly,
we propose to mine the target location from a trajectory given by off-the-shelf
VLN models. Specially, we design a multi-module transformer-based model for
learning compact discriminative trajectory viewpoint representation, which is
used to predict the confidence of being a target location as described in the
instruction. The proposed method is evaluated on three widely-adopted datasets:
R2R, REVERIE and NDH, and shows promising results, demonstrating the potential
for more future research.
- Abstract(参考訳): vision-and-language navigation (vln) は、与えられた命令に従ってターゲットの場所へナビゲートすることを目的としている。
本稿では、ナビゲーションの各ステップにおいてより正確な動作を予測することに焦点を当てた既存の手法とは異なり、VLNにおける長年無視されてきた問題に最初に取り組み、成功率(SR)とOracle成功率(OSR)のギャップを狭める。
我々は、R2RとREVERIEの2つのベンチマークデータセットにまたがる4つの最先端VLNメソッドに対して、一貫して大きなギャップ(最大9%)を観察する。
高いOSRは、ロボットエージェントが目標位置を通過していることを示しているが、低いSRは、エージェントが最終的に目標位置に立ち寄らないことを示唆している。
動作を直接予測する代わりに、市販のVLNモデルによって与えられる軌道から目標位置をマイニングする。
特に,多モジュールトランスフォーマモデルを用いて,指示に記述された目標位置の信頼度を予測するために使用される,コンパクトな識別軌跡視点表現を学習する。
提案手法は,R2R,REVERIE,NDHの3つの広義のデータセットを用いて評価し,将来的な研究の可能性を示す。
関連論文リスト
- PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation
Using Scene Object Spectrum Grounding [16.784045122994506]
本稿では,最近の行動の誤りを正すために,利用ポリシーをデプロイする階層的なナビゲーション手法を提案する。
本研究では,エージェントをローカルな目標に向かって移動させるエクスプロイトポリシーが,エージェントを以前訪問した状態に移動させる手法よりも優れていることを示す。
本稿では,検出対象のカテゴリワイド2次元フーリエ変換を行う,シーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。
論文 参考訳(メタデータ) (2023-03-07T17:39:53Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Bridging the Gap Between Learning in Discrete and Continuous
Environments for Vision-and-Language Navigation [41.334731014665316]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存の作業のほとんどは、離散的または連続的な環境に焦点を当てている。
ナビゲーション中に候補となるウェイポイントの集合を生成するための予測器を提案する。
予測された経路点を持つ連続環境を航行するエージェントは,低レベル動作を使用するエージェントよりも有意に優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-05T14:56:14Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Take the Scenic Route: Improving Generalization in Vision-and-Language
Navigation [44.019674347733506]
一般的なRoom-to-Room (R2R) VLNベンチマークを調査し、重要なことは、合成するデータの量だけでなく、どのように処理するかを知る。
R2Rベンチマークと既存の拡張手法の両方で使用される最短経路サンプリングは、エージェントのアクション空間におけるバイアスを符号化する。
次に、これらの行動先行は、既存の作品の貧弱な一般化に対する一つの説明を提供することを示す。
論文 参考訳(メタデータ) (2020-03-31T14:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。