論文の概要: Iterative Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2210.03087v3
- Date: Sun, 24 Dec 2023 05:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:32:42.218376
- Title: Iterative Vision-and-Language Navigation
- Title(参考訳): 反復的視覚・言語ナビゲーション
- Authors: Jacob Krantz, Shurjo Banerjee, Wang Zhu, Jason Corso, Peter Anderson,
Stefan Lee and Jesse Thomason
- Abstract要約: イテレーティブ・ビジョン・アンド・ランゲージ・ナビゲーション(Iterative Vision-and-Language Navigation、IVLN)は、言語誘導エージェントを時間とともに持続的な環境でナビゲートするためのパラダイムである。
既存のベンチマークは、各エピソードの開始時にエージェントのメモリを消去し、事前情報なしでコールドスタートナビゲーションを実行する機能をテストする。
室内80のシーンで約400のツアーからなる個別かつ連続的なIR2Rベンチマークを示す。
- 参考スコア(独自算出の注目度): 21.529113549298764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Iterative Vision-and-Language Navigation (IVLN), a paradigm for
evaluating language-guided agents navigating in a persistent environment over
time. Existing Vision-and-Language Navigation (VLN) benchmarks erase the
agent's memory at the beginning of every episode, testing the ability to
perform cold-start navigation with no prior information. However, deployed
robots occupy the same environment for long periods of time. The IVLN paradigm
addresses this disparity by training and evaluating VLN agents that maintain
memory across tours of scenes that consist of up to 100 ordered
instruction-following Room-to-Room (R2R) episodes, each defined by an
individual language instruction and a target path. We present discrete and
continuous Iterative Room-to-Room (IR2R) benchmarks comprising about 400 tours
each in 80 indoor scenes. We find that extending the implicit memory of
high-performing transformer VLN agents is not sufficient for IVLN, but agents
that build maps can benefit from environment persistence, motivating a renewed
focus on map-building agents in VLN.
- Abstract(参考訳): 本稿では,永続環境における言語誘導エージェントの時間経過を評価するためのパラダイムである反復的視覚言語ナビゲーション(ivln)を提案する。
既存のVision-and-Language Navigation (VLN)ベンチマークは、各エピソードの開始時にエージェントのメモリを消去し、事前情報なしでコールドスタートナビゲーションを実行する機能をテストする。
しかし、展開されたロボットは同じ環境を長時間占有する。
IVLNパラダイムは、最大100の命令追従のRoom-to-Room(R2R)エピソードからなるシーンのツアーを通してメモリを維持するVLNエージェントをトレーニングし、評価することで、この格差に対処する。
室内80シーンに約400のツアーからなるir2rベンチマークを離散的かつ連続的に実施する。
高性能トランスフォーマーVLNエージェントの暗黙的メモリの拡張はIVLNには不十分であるが、マップを構築するエージェントは環境の持続性から恩恵を受け、VLNのマップ構築エージェントに新たな焦点をあてる動機となっている。
関連論文リスト
- OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。
既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。
本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-22T09:15:36Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。