論文の概要: VLN-Trans: Translator for the Vision and Language Navigation Agent
- arxiv url: http://arxiv.org/abs/2302.09230v1
- Date: Sat, 18 Feb 2023 04:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:40:32.927831
- Title: VLN-Trans: Translator for the Vision and Language Navigation Agent
- Title(参考訳): vln-trans:視覚および言語ナビゲーションエージェントの翻訳装置
- Authors: Yue Zhang, Parisa Kordjamshidi
- Abstract要約: ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
- 参考スコア(独自算出の注目度): 23.84492755669486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language understanding is essential for the navigation agent to follow
instructions. We observe two kinds of issues in the instructions that can make
the navigation task challenging: 1. The mentioned landmarks are not
recognizable by the navigation agent due to the different vision abilities of
the instructor and the modeled agent. 2. The mentioned landmarks are applicable
to multiple targets, thus not distinctive for selecting the target among the
candidate viewpoints. To deal with these issues, we design a translator module
for the navigation agent to convert the original instructions into
easy-to-follow sub-instruction representations at each step. The translator
needs to focus on the recognizable and distinctive landmarks based on the
agent's visual abilities and the observed visual environment. To achieve this
goal, we create a new synthetic sub-instruction dataset and design specific
tasks to train the translator and the navigation agent. We evaluate our
approach on Room2Room~(R2R), Room4room~(R4R), and Room2Room Last (R2R-Last)
datasets and achieve state-of-the-art results on multiple benchmarks.
- Abstract(参考訳): ナビゲーションエージェントが指示に従うためには、言語理解が不可欠である。
ナビゲーションタスクを困難にさせる命令では,2種類の問題を観察する。
1)前述のランドマークは,インストラクターとモデルエージェントの視覚能力が異なるため,ナビゲーションエージェントでは認識できない。
2 上記のランドマークは、複数のターゲットに適用できるため、候補視点のうちのターゲットの選択に特有ではない。
これらの問題に対処するために,我々はナビゲーションエージェント用の翻訳モジュールを設計し,各ステップで元の命令をフォローするサブインストラクション表現に変換する。
翻訳者は、エージェントの視覚能力と観察された視覚環境に基づいて、認識可能で独特なランドマークに焦点を当てる必要がある。
この目的を達成するために、新しい合成サブインストラクションデータセットを作成し、翻訳者とナビゲーションエージェントを訓練するための特定のタスクを設計する。
我々は,Room2Room~(R2R),Room4room~(R4R),Room2Room Last(R2R-Last)データセットに対するアプローチを評価し,複数のベンチマークで最新の結果を得た。
関連論文リスト
- NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - LOViS: Learning Orientation and Visual Signals for Vision and Language
Navigation [23.84492755669486]
本稿では,明示的なオリエンテーションとビジョンモジュールを持つニューラルエージェントを設計する。
これらのモジュールは空間的な情報に基づいて学習し、視覚環境への指示のランドマークをより効果的に記述する。
提案手法はRoom2room (R2R) とRoom4room (R4R) の両方のデータセットで評価し,両ベンチマークで得られた技術結果の状態を検証した。
論文 参考訳(メタデータ) (2022-09-26T14:26:50Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。