論文の概要: TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2502.07306v1
- Date: Tue, 11 Feb 2025 07:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:57.035916
- Title: TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation
- Title(参考訳): TRAVEL:視覚・言語ナビゲーションのための学習自由検索とアライメント
- Authors: Navid Rajabi, Jana Kosecka,
- Abstract要約: 視覚言語ナビゲーション(VLN)のためのモジュラーアプローチを提案する。
ゼロショット設定では、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を使用します。
共同意味マップを用いた他の手法と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 3.2688425993442696
- License:
- Abstract: In this work, we propose a modular approach for the Vision-Language Navigation (VLN) task by decomposing the problem into four sub-modules that use state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs) in a zero-shot setting. Given navigation instruction in natural language, we first prompt LLM to extract the landmarks and the order in which they are visited. Assuming the known model of the environment, we retrieve the top-k locations of the last landmark and generate $k$ path hypotheses from the starting location to the last landmark using the shortest path algorithm on the topological map of the environment. Each path hypothesis is represented by a sequence of panoramas. We then use dynamic programming to compute the alignment score between the sequence of panoramas and the sequence of landmark names, which match scores obtained from VLM. Finally, we compute the nDTW metric between the hypothesis that yields the highest alignment score to evaluate the path fidelity. We demonstrate superior performance compared to other approaches that use joint semantic maps like VLMaps \cite{vlmaps} on the complex R2R-Habitat \cite{r2r} instruction dataset and quantify in detail the effect of visual grounding on navigation performance.
- Abstract(参考訳): 本研究では,現状のLarge Language Models (LLM) とVision-Language Models (VLM) をゼロショットで使用する4つのサブモジュールに分解することで,視覚言語ナビゲーション(VLN)タスクのモジュール化手法を提案する。
自然言語によるナビゲーションの指導を受けると、まずLLMにランドマークと訪問順序を抽出するよう促す。
環境の既知モデルとして, 環境のトポロジカルマップ上の最短経路アルゴリズムを用いて, 最後のランドマークの上位k位置を推定し, 開始位置から最終ランドマークまでの経路仮説を生成する。
各経路仮説はパノラマの列で表される。
次に動的プログラミングを用いてパノラマ列とランドマーク名列のアライメントスコアを計算する。
最後に、最も高いアライメントスコアを得る仮説間のnDTWメトリックを計算し、パスの忠実度を評価する。
複雑なR2R-Habitat \cite{r2r} 命令データセット上で,VLMaps \cite{vlmaps} のようなジョイントセマンティックマップを使用する場合に比べて優れた性能を示し,ビジュアルグラウンドがナビゲーション性能に与える影響を定量的に示す。
関連論文リスト
- NavTopo: Leveraging Topological Maps For Autonomous Navigation Of a Mobile Robot [1.0550841723235613]
トポロジマップと2段階の経路計画に基づく完全なナビゲーションパイプラインを提案する。
パイプラインは、入力ポイントクラウドのニューラルネットワーク記述子と2Dプロジェクションをマッチングすることで、グラフにローカライズする。
提案手法は,大規模な室内光相対論的シミュレーション環境でテストし,一般的な計量マッピング手法であるRTAB-MAPに基づく計量地図に基づく手法と比較する。
論文 参考訳(メタデータ) (2024-10-15T10:54:49Z) - PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - PivotNet: Vectorized Pivot Learning for End-to-end HD Map Construction [10.936405710245625]
我々は、ピボットベースの地図表現を統一したPivotNetという、シンプルで効果的なアーキテクチャを提案する。
PivotNet は他の SOTA よりも5.9 mAP の方がはるかに優れている。
論文 参考訳(メタデータ) (2023-08-31T05:43:46Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - GridMM: Grid Memory Map for Vision-and-Language Navigation [40.815400962166535]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。
訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップを構築します。
地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をよりよく表すことができる。
論文 参考訳(メタデータ) (2023-07-24T16:02:42Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Average Outward Flux Skeletons for Environment Mapping and Topology
Matching [15.93458380913065]
本研究では,初期未知の2次元環境の道路マップの抽出方法を,その境界線を頑健に計算するオンライン・プロシージャを用いて検討する。
提案アルゴリズムは,ロボットのナビゲーションニーズに対して,スムーズな経路を実現する。
論文 参考訳(メタデータ) (2021-11-27T06:29:57Z) - Neighbor-view Enhanced Model for Vision and Language Navigation [78.90859474564787]
視覚と言語ナビゲーション(VLN)では、エージェントが自然言語の指示に従うことによって、ターゲットの場所へナビゲートする必要がある。
本研究では,隣接するビューから視覚的コンテキストを適応的に組み込むマルチモジュールNeighbor-View Enhanced Model (NvEM)を提案する。
論文 参考訳(メタデータ) (2021-07-15T09:11:02Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。