論文の概要: CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double
Back-Translation for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2103.00852v2
- Date: Mon, 21 Aug 2023 12:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:34:38.059204
- Title: CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double
Back-Translation for Vision-and-Language Navigation
- Title(参考訳): クロスマップトランスフォーマー : 視覚言語ナビゲーションのためのダブルバックトランスレーションを用いたクロスモーダルマスクドパストランスフォーマー
- Authors: Aly Magassouba, Komei Sugiura, and Hisashi Kawai
- Abstract要約: 自然言語命令で案内されるナビゲーションは、ユーザと自然に対話する国内サービスロボットに特に適している。
このタスクは、自然言語のナビゲーション命令が与えられた特定の目的地につながる一連のアクションの予測を含む。
言語的特徴と視覚的特徴を符号化して経路を逐次生成するCrossMap Transformerネットワークを提案する。
- 参考スコア(独自算出の注目度): 11.318892271652695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigation guided by natural language instructions is particularly suitable
for Domestic Service Robots that interacts naturally with users. This task
involves the prediction of a sequence of actions that leads to a specified
destination given a natural language navigation instruction. The task thus
requires the understanding of instructions, such as ``Walk out of the bathroom
and wait on the stairs that are on the right''. The Visual and Language
Navigation remains challenging, notably because it requires the exploration of
the environment and at the accurate following of a path specified by the
instructions to model the relationship between language and vision. To address
this, we propose the CrossMap Transformer network, which encodes the linguistic
and visual features to sequentially generate a path. The CrossMap transformer
is tied to a Transformer-based speaker that generates navigation instructions.
The two networks share common latent features, for mutual enhancement through a
double back translation model: Generated paths are translated into instructions
while generated instructions are translated into path The experimental results
show the benefits of our approach in terms of instruction understanding and
instruction generation.
- Abstract(参考訳): 自然言語指示によるナビゲーションは、ユーザーと自然に対話する国内サービスロボットに特に適している。
このタスクは、自然言語のナビゲーション命令が与えられた特定の目的地につながる一連のアクションの予測を含む。
そのため、この作業には『バスルームから出て、右側の階段で待つ』などの指示の理解が必要となる。
視覚と言語ナビゲーションは、特に環境の探索と、言語と視覚の関係をモデル化するための指示によって指定された経路の正確な追従を必要とするため、依然として困難である。
そこで本研究では,言語的特徴と視覚的特徴を符号化して経路を逐次生成するCrossMap Transformerネットワークを提案する。
CrossMap変換器は、ナビゲーション命令を生成するTransformerベースのスピーカーに接続されている。
生成したパスは命令に変換され、生成した命令は経路に変換される この実験結果は、命令理解と命令生成という観点で、我々のアプローチの利点を示しています。
関連論文リスト
- $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - VLN-Trans: Translator for the Vision and Language Navigation Agent [23.84492755669486]
ナビゲーションエージェントのためのトランスレータモジュールを設計し、元の命令を簡単に追従できるサブ命令表現に変換する。
我々は、新しい合成サブインストラクションデータセットを作成し、トランスレータとナビゲーションエージェントを訓練するための特定のタスクを設計する。
本研究では,Room2Room(R2R),Room4room(R4R),Room2Room Last(R2R-Last)データセットについて検討した。
論文 参考訳(メタデータ) (2023-02-18T04:19:51Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Generating Landmark Navigation Instructions from Maps as a Graph-to-Text
Problem [15.99072005190786]
OpenStreetMap表現を入力として取り、ナビゲーション命令の生成を学習するニューラルモデルを提示する。
われわれの研究は、ストリートビューで人間のナビゲーションによって検証された7,672件のクラウドソースインスタンスのデータセットに基づいている。
論文 参考訳(メタデータ) (2020-12-30T21:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。