論文の概要: Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment
- arxiv url: http://arxiv.org/abs/2010.15195v2
- Date: Thu, 20 May 2021 18:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 04:46:23.430444
- Title: Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment
- Title(参考訳): 初級模擬3次元環境におけるスパースリワードオブジェクト-インタラクションタスクの強化学習
- Authors: Wilka Carvalho, Anthony Liang, Kimin Lee, Sungryull Sohn, Honglak Lee,
Richard L. Lewis, Satinder Singh
- Abstract要約: 高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
- 参考スコア(独自算出の注目度): 73.9469267445146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-person object-interaction tasks in high-fidelity, 3D, simulated
environments such as the AI2Thor virtual home-environment pose significant
sample-efficiency challenges for reinforcement learning (RL) agents learning
from sparse task rewards. To alleviate these challenges, prior work has
provided extensive supervision via a combination of reward-shaping,
ground-truth object-information, and expert demonstrations. In this work, we
show that one can learn object-interaction tasks from scratch without
supervision by learning an attentive object-model as an auxiliary task during
task learning with an object-centric relational RL agent. Our key insight is
that learning an object-model that incorporates object-attention into forward
prediction provides a dense learning signal for unsupervised representation
learning of both objects and their relationships. This, in turn, enables faster
policy learning for an object-centric relational RL agent. We demonstrate our
agent by introducing a set of challenging object-interaction tasks in the
AI2Thor environment where learning with our attentive object-model is key to
strong performance. Specifically, we compare our agent and relational RL agents
with alternative auxiliary tasks to a relational RL agent equipped with
ground-truth object-information, and show that learning with our object-model
best closes the performance gap in terms of both learning speed and maximum
success rate. Additionally, we find that incorporating object-attention into an
object-model's forward predictions is key to learning representations which
capture object-category and object-state.
- Abstract(参考訳): 高忠実な3Dシミュレーション環境において、AI2Thor仮想環境のような1対1のオブジェクトインタラクションタスクは、スパースタスク報酬から学習する強化学習(RL)エージェントに対して重要なサンプル効率の課題をもたらす。
これらの課題を緩和するため、先行研究は報酬シェーピング、地対物情報、専門家のデモンストレーションを組み合わせることで広範な監督を行っている。
本研究では,オブジェクト中心リレーショナルRLエージェントを用いたタスク学習において,注意的オブジェクトモデルを補助的タスクとして学習することにより,一から操作タスクを学習することができることを示す。
我々の重要な洞察は、オブジェクトの意図を前方予測に組み込んだオブジェクトモデル学習が、オブジェクトとそれらの関係の教師なし表現学習のための密集した学習信号を提供するということである。
これにより、オブジェクト中心リレーショナルRLエージェントのポリシー学習が高速化される。
我々はAI2Thor環境において、注意深いオブジェクトモデルによる学習がパフォーマンス向上の鍵となる、一連の困難なオブジェクトインタラクションタスクを導入することでエージェントを実証する。
具体的には,本エージェントとリレーショナルRLエージェントを,地中的オブジェクト情報を備えたリレーショナルRLエージェントと比較し,学習速度と最大成功率の両面で,オブジェクトモデルによる学習が性能ギャップを埋めることを示す。
加えて、オブジェクトモデルの前方予測にオブジェクトアテンションを組み込むことは、オブジェクトのカテゴリとオブジェクトの状態をキャプチャする学習表現の鍵となる。
関連論文リスト
- Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。
視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。
我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-04T06:34:24Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Visuomotor Mechanical Search: Learning to Retrieve Target Objects in
Clutter [43.668395529368354]
本稿では,教師支援による探索,特権情報による批判,中間レベルの表現を組み合わせた新しい深部RL手順を提案する。
我々のアプローチは、ベースラインやアブレーションよりも高速に学習し、より効率的な解の発見に収束する。
論文 参考訳(メタデータ) (2020-08-13T18:23:00Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z) - Relevance-Guided Modeling of Object Dynamics for Reinforcement Learning [0.0951828574518325]
現在の深層強化学習(RL)アプローチでは、環境に関する最小限の事前知識が組み込まれている。
本稿では,最小限およびタスク固有のオブジェクト表現を迅速に決定するために,オブジェクトのダイナミクスと振る舞いを推論するフレームワークを提案する。
また、オブジェクト表現と標準RLと計画アルゴリズムを用いて、Atariゲームにおけるこのフレームワークの可能性を強調し、既存の深層RLアルゴリズムよりも劇的に高速に学習する。
論文 参考訳(メタデータ) (2020-03-03T08:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。