論文の概要: Are We There Yet? Learning to Localize in Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2101.03431v1
- Date: Sat, 9 Jan 2021 21:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 07:28:25.764000
- Title: Are We There Yet? Learning to Localize in Embodied Instruction Following
- Title(参考訳): まだいるのか?
具体的指導追従における局所化の学習
- Authors: Shane Storks, Qiaozi Gao, Govind Thattai, Gokhan Tur
- Abstract要約: Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
- 参考スコア(独自算出の注目度): 1.7300690315775575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied instruction following is a challenging problem requiring an agent to
infer a sequence of primitive actions to achieve a goal environment state from
complex language and visual inputs. Action Learning From Realistic Environments
and Directives (ALFRED) is a recently proposed benchmark for this problem
consisting of step-by-step natural language instructions to achieve subgoals
which compose to an ultimate high-level goal. Key challenges for this task
include localizing target locations and navigating to them through visual
inputs, and grounding language instructions to visual appearance of objects. To
address these challenges, in this study, we augment the agent's field of view
during navigation subgoals with multiple viewing angles, and train the agent to
predict its relative spatial relation to the target location at each timestep.
We also improve language grounding by introducing a pre-trained object
detection module to the model pipeline. Empirical studies show that our
approach exceeds the baseline model performance.
- Abstract(参考訳): 具体化命令の追従は、エージェントが複雑な言語と視覚入力から目標環境状態を達成するために一連の原始的なアクションを推測する必要がある難しい問題である。
リアル環境とディレクティブ(alfred)からのアクション学習(action learning from real environments and directives)は、この問題の最近提案されたベンチマークであり、究極のハイレベルな目標を達成するための、ステップバイステップの自然言語命令からなる。
このタスクの主な課題は、ターゲット位置のローカライズ、視覚入力によるナビゲーション、オブジェクトの視覚的外観に対する言語命令の接地である。
これらの課題に対処するため、本研究では、複数の視角を持つナビゲーションサブゴールにおいて、エージェントの視野を拡大し、各時刻における目標位置との相対空間関係を予測するようエージェントに訓練する。
また,モデルパイプラインに事前学習されたオブジェクト検出モジュールを導入することで,言語グランド化を改善する。
実験により,本手法がベースラインモデル性能を上回ることが示された。
関連論文リスト
- Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。
視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。
我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-04T06:34:24Z) - Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - Structured Exploration Through Instruction Enhancement for Object
Navigation [0.0]
本稿では,オブジェクトナビゲーションのための階層型学習手法を提案する。
トップレベルはハイレベルなプランニングが可能で、フロアプランレベルでメモリを構築することができる。
本研究では,本手法が動的家庭環境に与える影響を実証する。
論文 参考訳(メタデータ) (2022-11-15T19:39:22Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Learning to Map for Active Semantic Goal Navigation [40.193928212509356]
本稿では,エージェントの視野外のセマンティックマップ生成を積極的に学習する新しいフレームワークを提案する。
我々は、エクスプロイトとエクスプロイトのバランスをとることで、異なる目的をどのように定義できるかを示す。
本手法は,Matterport3Dデータセットによって提供される視覚的に現実的な環境において検証される。
論文 参考訳(メタデータ) (2021-06-29T18:01:30Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。