論文の概要: Lana: A Language-Capable Navigator for Instruction Following and
Generation
- arxiv url: http://arxiv.org/abs/2303.08409v1
- Date: Wed, 15 Mar 2023 07:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:16:19.109420
- Title: Lana: A Language-Capable Navigator for Instruction Following and
Generation
- Title(参考訳): Lana: 命令追従と生成のための言語対応ナビゲータ
- Authors: Xiaohan Wang, Wenguan Wang, Jiayi Shao, Yi Yang
- Abstract要約: LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
- 参考スコア(独自算出の注目度): 70.76686546473994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, visual-language navigation (VLN) -- entailing robot agents to
follow navigation instructions -- has shown great advance. However, existing
literature put most emphasis on interpreting instructions into actions, only
delivering "dumb" wayfinding agents. In this article, we devise LANA, a
language-capable navigation agent which is able to not only execute
human-written navigation commands, but also provide route descriptions to
humans. This is achieved by simultaneously learning instruction following and
generation with only one single model. More specifically, two encoders,
respectively for route and language encoding, are built and shared by two
decoders, respectively, for action prediction and instruction generation, so as
to exploit cross-task knowledge and capture task-specific characteristics.
Throughout pretraining and fine-tuning, both instruction following and
generation are set as optimization objectives. We empirically verify that,
compared with recent advanced task-specific solutions, LANA attains better
performances on both instruction following and route description, with nearly
half complexity. In addition, endowed with language generation capability, LANA
can explain to humans its behaviors and assist human's wayfinding. This work is
expected to foster future efforts towards building more trustworthy and
socially-intelligent navigation robots.
- Abstract(参考訳): 近年、ナビゲーション指示に従うロボットエージェントを含む視覚言語ナビゲーション(VLN)が大きな進歩を見せている。
しかし、既存の文献では命令を行動に解釈することに重点を置いており、「dumb」のウェイフィングエージェントしか提供していない。
本稿では、言語対応ナビゲーションエージェントであるLANAを考案し、人手によるナビゲーションコマンドを実行するだけでなく、人間に経路記述を提供する。
これは1つのモデルで命令の追従と生成を同時に学習することで達成される。
より具体的には、2つのエンコーダをそれぞれ2つのデコーダで構築し、動作予測と命令生成のために共有することにより、クロスタスクの知識を活用し、タスク固有の特性をキャプチャする。
事前学習と微調整を通じて、命令追従と生成の両方を最適化目的として設定する。
我々は、最近の高度なタスク固有のソリューションと比較して、LANAは命令追従と経路記述の両方において、ほぼ半分の複雑さでより良いパフォーマンスが得られることを実証的に検証した。
さらに、言語生成能力が付与されたlanaは、人間の行動を説明し、人間のウェイフィングを支援することができる。
この研究は、より信頼性が高く社会的に知的なナビゲーションロボットの構築に向けた将来の取り組みを促進することが期待されている。
関連論文リスト
- A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)における最近の研究は、多言語環境で自然言語ナビゲーション命令を実行するためにRLエージェントを訓練している。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
密集した360度パノラマで捉えた500以上の屋内環境を、これらのパノラマを通して航法軌道を構築し、各軌跡に対して視覚的に接地した指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Visual-and-Language Navigation: A Survey and Taxonomy [1.0742675209112622]
本稿では,ビジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクに関する総合的な調査を行う。
命令が与えられたら、タスクはシングルターンとマルチターンに分けられる。
この分類学は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。
論文 参考訳(メタデータ) (2021-08-26T01:51:18Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - BabyWalk: Going Farther in Vision-and-Language Navigation by Taking Baby
Steps [35.26789280774404]
本研究では,短いコーパスからなるコーパスから学習する際に,エージェントが長い経路をナビゲートする方法について検討する。
我々は、長い命令を短い命令に分解することでナビゲートを学習する新しいVLNエージェントであるBabyWalkを提案する。
BabyWalkは、いくつかのメトリクス、特に長い命令をより良く追跡できる最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-05-10T10:46:41Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。