論文の概要: NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation
- arxiv url: http://arxiv.org/abs/2412.13026v2
- Date: Wed, 18 Dec 2024 03:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:25:24.208569
- Title: NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation
- Title(参考訳): NAVCON:視覚と言語ナビゲーションのための認知的・言語学的基礎コーパス
- Authors: Karan Wanchoo, Xiaoye Zuo, Hannah Gonzalez, Soham Dan, Georgios Georgakis, Dan Roth, Kostas Daniilidis, Eleni Miltsakaki,
- Abstract要約: NAVCONは2つの一般的なデータセット(R2RとRxR)の上に構築された大規模な注釈付きビジョンランゲージナビゲーション(VLN)コーパスである。
- 参考スコア(独自算出の注目度): 66.89717229608358
- License:
- Abstract: We present NAVCON, a large-scale annotated Vision-Language Navigation (VLN) corpus built on top of two popular datasets (R2R and RxR). The paper introduces four core, cognitively motivated and linguistically grounded, navigation concepts and an algorithm for generating large-scale silver annotations of naturally occurring linguistic realizations of these concepts in navigation instructions. We pair the annotated instructions with video clips of an agent acting on these instructions. NAVCON contains 236, 316 concept annotations for approximately 30, 0000 instructions and 2.7 million aligned images (from approximately 19, 000 instructions) showing what the agent sees when executing an instruction. To our knowledge, this is the first comprehensive resource of navigation concepts. We evaluated the quality of the silver annotations by conducting human evaluation studies on NAVCON samples. As further validation of the quality and usefulness of the resource, we trained a model for detecting navigation concepts and their linguistic realizations in unseen instructions. Additionally, we show that few-shot learning with GPT-4o performs well on this task using large-scale silver annotations of NAVCON.
- Abstract(参考訳): 我々は2つの一般的なデータセット(R2RとRxR)の上に構築された大規模な注釈付き視覚言語ナビゲーション(VLN)コーパスであるNAVCONを紹介する。
本稿では,4つのコア,認知的モチベーションと言語的基盤,ナビゲーション概念,およびこれらの概念の自然発生言語的実現のための大規模銀アノテーションを生成するアルゴリズムについて紹介する。
アノテーション付き命令と、これらの命令に作用するエージェントのビデオクリップとをペアリングする。
NAVCONには約30000の命令に対して236,316のコンセプトアノテーションと270万のアラインイメージ(約19,000の命令から)が含まれており、命令の実行時にエージェントが何を見るかを示している。
私たちの知る限り、これはナビゲーションの概念の総合的なリソースとしては初めてのものです。
我々は,NAVCON試料の人為的評価を行い,銀のアノテーションの品質を評価した。
資源の品質と有用性をさらに検証するため,ナビゲーションの概念と言語的実現を未知の指示で検出するモデルを訓練した。
さらに,GAT-4oを用いた少数ショット学習は,NAVCONの大規模銀のアノテーションを用いて,この課題に有効であることを示す。
関連論文リスト
- LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - VLN-Trans: Translator for the Vision and Language Navigation Agent [23.84492755669486]
ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
論文 参考訳(メタデータ) (2023-02-18T04:19:51Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - LOViS: Learning Orientation and Visual Signals for Vision and Language
Navigation [23.84492755669486]
本稿では,明示的なオリエンテーションとビジョンモジュールを持つニューラルエージェントを設計する。
これらのモジュールは空間的な情報に基づいて学習し、視覚環境への指示のランドマークをより効果的に記述する。
提案手法はRoom2room (R2R) とRoom4room (R4R) の両方のデータセットで評価し,両ベンチマークで得られた技術結果の状態を検証した。
論文 参考訳(メタデータ) (2022-09-26T14:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。