論文の概要: Grounding Complex Navigational Instructions Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2106.01607v1
- Date: Thu, 3 Jun 2021 05:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 00:14:45.625369
- Title: Grounding Complex Navigational Instructions Using Scene Graphs
- Title(参考訳): シーングラフを用いた複雑なナビゲーション指導
- Authors: Michiel de Jong, Satyapriya Krishna, Anuva Agarwal
- Abstract要約: 我々はCLEVR視覚質問応答データセットを適用し、複雑な自然言語ナビゲーション命令と付随するシーングラフを生成する。
このデータセットの使用を実演するために、シーンをVizDoom環境にマッピングし、シテトゲートアテンションでアーキテクチャを使用してエージェントにこれらのより複雑な言語命令を実行するように訓練する。
- 参考スコア(独自算出の注目度): 2.165723322157105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a reinforcement learning agent to carry out natural language
instructions is limited by the available supervision, i.e. knowing when the
instruction has been carried out. We adapt the CLEVR visual question answering
dataset to generate complex natural language navigation instructions and
accompanying scene graphs, yielding an environment-agnostic supervised dataset.
To demonstrate the use of this data set, we map the scenes to the VizDoom
environment and use the architecture in \citet{gatedattention} to train an
agent to carry out these more complex language instructions.
- Abstract(参考訳): 自然言語命令を実行するための強化学習エージェントのトレーニングは、利用可能な監督によって制限される。
指示がいつ実行されたかを知る。
我々は、clevrビジュアル質問応答データセットを用いて、複雑な自然言語ナビゲーション命令とシーングラフを生成し、環境に依存しない教師付きデータセットを生成する。
このデータセットの使用を実証するために、シーンをVizDoom環境にマップし、アーキテクチャを \citet{gatedattention} で使用して、エージェントにこれらのより複雑な言語命令を実行するように訓練する。
関連論文リスト
- Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation [8.931633531104021]
SAS(Spatially-Aware Speaker)は、環境の構造的知識と意味的知識の両方を用いてよりリッチな命令を生成する命令生成装置である。
提案手法は,既存の命令生成モデルより優れ,標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-09-09T13:12:11Z) - Controllable Navigation Instruction Generation with Chain of Thought Prompting [74.34604350917273]
本稿では,C-インストラクタを提案する。C-インストラクタは,スタイル制御およびコンテンツ制御可能な命令生成のために,チェーン・オブ・シンクタスタイルのプロンプトを利用する。
C-インストラクタは生成した命令をより追従しやすくし、ランドマークオブジェクトの操作に対する制御性を高める。
論文 参考訳(メタデータ) (2024-07-10T07:37:20Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Modular Framework for Visuomotor Language Grounding [57.93906820466519]
自然言語の指導は、接地された言語とロボット工学の研究にとって貴重なテストベッドとして機能する。
本稿では,言語,行動,視覚的タスクを個別に学習可能なモジュールに構造化することを提案する。
論文 参考訳(メタデータ) (2021-09-05T20:11:53Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - Deep compositional robotic planners that follow natural language
commands [21.481360281719006]
サンプルベースのロボットプランナが、自然言語コマンドのシーケンスを理解するためにどのように拡張できるかを示す。
我々のアプローチは、オブジェクト、動詞、空間関係、属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークを組み合わせる。
論文 参考訳(メタデータ) (2020-02-12T19:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。