論文の概要: Correctable Landmark Discovery via Large Models for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2405.18721v1
- Date: Wed, 29 May 2024 03:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:04:06.768165
- Title: Correctable Landmark Discovery via Large Models for Vision-Language Navigation
- Title(参考訳): 視覚言語ナビゲーションのための大規模モデルによる修正可能なランドマーク発見
- Authors: Bingqian Lin, Yunshuang Nie, Ziming Wei, Yi Zhu, Hang Xu, Shikui Ma, Jianzhuang Liu, Xiaodan Liang,
- Abstract要約: Vision-Language Navigation (VLN) は、ターゲット位置に到達するために、エージェントが言語命令に従う必要がある。
以前のVLNエージェントは、特に探索されていないシーンで正確なモダリティアライメントを行うことができない。
我々は,Large ModEls (CONSOLE) によるコレクタブルLaNdmark DiScOveryと呼ばれる新しいVLNパラダイムを提案する。
- 参考スコア(独自算出の注目度): 89.15243018016211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) requires the agent to follow language instructions to reach a target position. A key factor for successful navigation is to align the landmarks implied in the instruction with diverse visual observations. However, previous VLN agents fail to perform accurate modality alignment especially in unexplored scenes, since they learn from limited navigation data and lack sufficient open-world alignment knowledge. In this work, we propose a new VLN paradigm, called COrrectable LaNdmark DiScOvery via Large ModEls (CONSOLE). In CONSOLE, we cast VLN as an open-world sequential landmark discovery problem, by introducing a novel correctable landmark discovery scheme based on two large models ChatGPT and CLIP. Specifically, we use ChatGPT to provide rich open-world landmark cooccurrence commonsense, and conduct CLIP-driven landmark discovery based on these commonsense priors. To mitigate the noise in the priors due to the lack of visual constraints, we introduce a learnable cooccurrence scoring module, which corrects the importance of each cooccurrence according to actual observations for accurate landmark discovery. We further design an observation enhancement strategy for an elegant combination of our framework with different VLN agents, where we utilize the corrected landmark features to obtain enhanced observation features for action decision. Extensive experimental results on multiple popular VLN benchmarks (R2R, REVERIE, R4R, RxR) show the significant superiority of CONSOLE over strong baselines. Especially, our CONSOLE establishes the new state-of-the-art results on R2R and R4R in unseen scenarios. Code is available at https://github.com/expectorlin/CONSOLE.
- Abstract(参考訳): Vision-Language Navigation (VLN) は、ターゲット位置に到達するために、エージェントが言語命令に従う必要がある。
ナビゲーションを成功させる重要な要因は、指導で暗示されるランドマークを様々な視覚的観察と整合させることである。
しかしながら、以前のVLNエージェントは、限られたナビゲーションデータから学習し、十分なオープンワールドアライメント知識がないため、特に探索されていないシーンでは正確なモダリティアライメントを実行できない。
本研究では,Currectable LaNdmark DiScOvery と呼ばれる新しい VLN パラダイムをLarge ModEls (CONSOLE) 経由で提案する。
CONSOLEでは、2つの大きなモデルChatGPTとCLIPに基づく新しい修正可能なランドマーク発見スキームを導入することで、VLNをオープンワールドシーケンシャルなランドマーク発見問題として捉えた。
具体的には、ChatGPTを使用して、豊かなオープンワールドのランドマークコモンセンスを提供し、これらのコモンセンスに基づいてCLIP駆動のランドマーク発見を行う。
視覚的制約の欠如による前者の騒音を軽減するため,学習可能な共起スコアリングモジュールを導入し,実際の観測結果に基づいて各共起の重要度を補正し,正確なランドマーク発見を行う。
我々はさらに、異なるVLNエージェントとエレガントな組み合わせのための観察強化戦略を設計し、修正されたランドマーク特徴を用いて行動決定のための観察機能を得る。
複数の人気のあるVLNベンチマーク(R2R、REVERIE、R4R、RxR)の大規模な実験結果から、強力なベースラインよりもCONSOLEの顕著な優位性が確認された。
特に,我々のCONSOLEは,目に見えないシナリオにおいて,R2RとR4Rの最先端結果を確立している。
コードはhttps://github.com/expectorlin/CONSOLEで入手できる。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation
Using Scene Object Spectrum Grounding [16.784045122994506]
本稿では,最近の行動の誤りを正すために,利用ポリシーをデプロイする階層的なナビゲーション手法を提案する。
本研究では,エージェントをローカルな目標に向かって移動させるエクスプロイトポリシーが,エージェントを以前訪問した状態に移動させる手法よりも優れていることを示す。
本稿では,検出対象のカテゴリワイド2次元フーリエ変換を行う,シーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。
論文 参考訳(メタデータ) (2023-03-07T17:39:53Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Rethinking the Spatial Route Prior in Vision-and-Language Navigation [29.244758196643307]
VLN(Vision-and-Language Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。
この研究は、VLNのタスクを、これまで無視されていた側面、すなわちナビゲーションシーンの前の空間ルートから解決する。
論文 参考訳(メタデータ) (2021-10-12T03:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。