論文の概要: Visual-and-Language Navigation: A Survey and Taxonomy
- arxiv url: http://arxiv.org/abs/2108.11544v1
- Date: Thu, 26 Aug 2021 01:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-28 01:37:46.906980
- Title: Visual-and-Language Navigation: A Survey and Taxonomy
- Title(参考訳): 視覚・言語ナビゲーション:調査と分類
- Authors: Wansen Wu, Tao Chang, Xinmeng Li
- Abstract要約: 本稿では,ビジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクに関する総合的な調査を行う。
命令が与えられたら、タスクはシングルターンとマルチターンに分けられる。
この分類学は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An agent that can understand natural-language instruction and carry out
corresponding actions in the visual world is one of the long-term challenges of
Artificial Intelligent (AI). Due to multifarious instructions from humans, it
requires the agent can link natural language to vision and action in
unstructured, previously unseen environments. If the instruction given by human
is a navigation task, this challenge is called Visual-and-Language Navigation
(VLN). It is a booming multi-disciplinary field of increasing importance and
with extraordinary practicality. Instead of focusing on the details of specific
methods, this paper provides a comprehensive survey on VLN tasks and makes a
classification carefully according the different characteristics of language
instructions in these tasks. According to when the instructions are given, the
tasks can be divided into single-turn and multi-turn. For single-turn tasks, we
further divided them into goal-orientation and route-orientation based on
whether the instructions contain a route. For multi-turn tasks, we divided them
into imperative task and interactive task based on whether the agent responses
to the instructions. This taxonomy enable researchers to better grasp the key
point of a specific task and identify directions for future research.
- Abstract(参考訳): 自然言語を理解でき、視覚世界で対応する行動を実行するエージェントは、AI(Artificial Intelligent)の長期的な課題の1つである。
人間からの多彩な指示のため、エージェントは自然言語を非構造的、以前は目に見えない環境で視覚と行動に結びつけることができる。
人間による指示がナビゲーションタスクである場合、この課題はVisual-and-Language Navigation (VLN)と呼ばれる。
重要性を増し、非常に実用的な分野である。
本稿では,特定の手法の詳細に焦点をあてるのではなく,VLNタスクを包括的に調査し,これらのタスクにおける言語命令の異なる特徴を慎重に分類する。
命令が与えられると、タスクはシングルターンとマルチターンに分けられる。
単ターンタスクでは、命令が経路を含むか否かに基づいて、さらに目標指向と経路指向に分割する。
マルチターンタスクでは,エージェントが命令に応答するかどうかに基づいて命令タスクと対話タスクに分割した。
この分類は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。
関連論文リスト
- An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction [22.31940101833938]
本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイ指導の理解を可能にした。
命令チューニングを決定変換器に組み込むためのマルチモーダルゲーム命令セットを構築する。
論文 参考訳(メタデータ) (2024-02-06T17:09:25Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - LINGO : Visually Debiasing Natural Language Instructions to Support Task
Diversity [11.44413929033824]
我々は,タスク駆動型ワークフローをサポートする新しいビジュアル分析インタフェースであるINGOを開発した。
我々は,1,616の言語課題のデータセットとその自然言語命令について,初心者と専門家の双方でユーザスタディを実施している。
両方のユーザグループに対して、lingOは事前訓練されたモデルのより難しいタスクの作成を促進する。
論文 参考訳(メタデータ) (2023-04-12T22:55:52Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - Robustness of Learning from Task Instructions [15.462970803323563]
従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。
新しいタスクに迅速かつ容易に一般化できるシステムを構築するために、タスク命令を監督の新たなトレンドとして採用している。
本研究は,新しいタスクの指示が (i) 操作された場合, (ii) 言い換えられた場合, (iii) 異なるレベルの簡潔さからシステムロバスト性を調べる。
論文 参考訳(メタデータ) (2022-12-07T17:54:59Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。