論文の概要: Lana: A Language-Capable Navigator for Instruction Following and
Generation
- arxiv url: http://arxiv.org/abs/2303.08409v1
- Date: Wed, 15 Mar 2023 07:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:16:19.109420
- Title: Lana: A Language-Capable Navigator for Instruction Following and
Generation
- Title(参考訳): Lana: 命令追従と生成のための言語対応ナビゲータ
- Authors: Xiaohan Wang, Wenguan Wang, Jiayi Shao, Yi Yang
- Abstract要約: LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
- 参考スコア(独自算出の注目度): 70.76686546473994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, visual-language navigation (VLN) -- entailing robot agents to
follow navigation instructions -- has shown great advance. However, existing
literature put most emphasis on interpreting instructions into actions, only
delivering "dumb" wayfinding agents. In this article, we devise LANA, a
language-capable navigation agent which is able to not only execute
human-written navigation commands, but also provide route descriptions to
humans. This is achieved by simultaneously learning instruction following and
generation with only one single model. More specifically, two encoders,
respectively for route and language encoding, are built and shared by two
decoders, respectively, for action prediction and instruction generation, so as
to exploit cross-task knowledge and capture task-specific characteristics.
Throughout pretraining and fine-tuning, both instruction following and
generation are set as optimization objectives. We empirically verify that,
compared with recent advanced task-specific solutions, LANA attains better
performances on both instruction following and route description, with nearly
half complexity. In addition, endowed with language generation capability, LANA
can explain to humans its behaviors and assist human's wayfinding. This work is
expected to foster future efforts towards building more trustworthy and
socially-intelligent navigation robots.
- Abstract(参考訳): 近年、ナビゲーション指示に従うロボットエージェントを含む視覚言語ナビゲーション(VLN)が大きな進歩を見せている。
しかし、既存の文献では命令を行動に解釈することに重点を置いており、「dumb」のウェイフィングエージェントしか提供していない。
本稿では、言語対応ナビゲーションエージェントであるLANAを考案し、人手によるナビゲーションコマンドを実行するだけでなく、人間に経路記述を提供する。
これは1つのモデルで命令の追従と生成を同時に学習することで達成される。
より具体的には、2つのエンコーダをそれぞれ2つのデコーダで構築し、動作予測と命令生成のために共有することにより、クロスタスクの知識を活用し、タスク固有の特性をキャプチャする。
事前学習と微調整を通じて、命令追従と生成の両方を最適化目的として設定する。
我々は、最近の高度なタスク固有のソリューションと比較して、LANAは命令追従と経路記述の両方において、ほぼ半分の複雑さでより良いパフォーマンスが得られることを実証的に検証した。
さらに、言語生成能力が付与されたlanaは、人間の行動を説明し、人間のウェイフィングを支援することができる。
この研究は、より信頼性が高く社会的に知的なナビゲーションロボットの構築に向けた将来の取り組みを促進することが期待されている。
関連論文リスト
- Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation [8.931633531104021]
SAS(Spatially-Aware Speaker)は、環境の構造的知識と意味的知識の両方を用いてよりリッチな命令を生成する命令生成装置である。
提案手法は,既存の命令生成モデルより優れ,標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-09-09T13:12:11Z) - InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。
InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。
InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文 参考訳(メタデータ) (2024-06-07T12:26:34Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。