論文の概要: Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation
- arxiv url: http://arxiv.org/abs/2206.11403v1
- Date: Wed, 22 Jun 2022 22:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:13:03.096456
- Title: Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation
- Title(参考訳): ゼロショットオブジェクト操作による構造化世界モデルによるキュリオシティ探索
- Authors: Cansu Sancaktar, Sebastian Blaes, Georg Martius
- Abstract要約: そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
- 参考スコア(独自算出の注目度): 19.840186443344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been a long-standing dream to design artificial agents that explore
their environment efficiently via intrinsic motivation, similar to how children
perform curious free play. Despite recent advances in intrinsically motivated
reinforcement learning (RL), sample-efficient exploration in object
manipulation scenarios remains a significant challenge as most of the relevant
information lies in the sparse agent-object and object-object interactions. In
this paper, we propose to use structured world models to incorporate relational
inductive biases in the control loop to achieve sample-efficient and
interaction-rich exploration in compositional multi-object environments. By
planning for future novelty inside structured world models, our method
generates free-play behavior that starts to interact with objects early on and
develops more complex behavior over time. Instead of using models only to
compute intrinsic rewards, as commonly done, our method showcases that the
self-reinforcing cycle between good models and good exploration also opens up
another avenue: zero-shot generalization to downstream tasks via model-based
planning. After the entirely intrinsic task-agnostic exploration phase, our
method solves challenging downstream tasks such as stacking, flipping, pick &
place, and throwing that generalizes to unseen numbers and arrangements of
objects without any additional training.
- Abstract(参考訳): 子どもたちが好奇心をそそられるフリープレイを行うのと同じように、本質的なモチベーションを通じて環境を効率的に探索する人工エージェントを設計することが長年の夢でした。
近年のRL(Intrinsically motivated reinforcement learning)の進歩にもかかわらず、オブジェクト操作シナリオにおけるサンプル効率の探究は、スパースエージェントオブジェクトとオブジェクトオブジェクトの相互作用に関係する情報の大半が存在しているため、重要な課題である。
本稿では,構成的多目的環境におけるサンプル効率と対話性に富む探索を実現するために,関係帰納的バイアスを制御ループに組み込むための構造的世界モデルを提案する。
構造化世界モデル内の将来的な新しさを計画することにより、より早い段階でオブジェクトと対話し始め、時間とともにより複雑な振る舞いを発達させるフリープレイ動作を生成する。
一般的に行われているように、モデルのみを用いて本質的な報酬を計算する代わりに、良いモデルと良い探索の間の自己強化サイクルがモデルベース計画による下流タスクへのゼロショット一般化という別の道を開くことを示す。
全く本質的なタスク非依存探索フェーズの後,本手法は,積み重ね,転動,ピック・アンド・プレイス,スローといった下流タスクの課題を解決する。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Visuomotor Mechanical Search: Learning to Retrieve Target Objects in
Clutter [43.668395529368354]
本稿では,教師支援による探索,特権情報による批判,中間レベルの表現を組み合わせた新しい深部RL手順を提案する。
我々のアプローチは、ベースラインやアブレーションよりも高速に学習し、より効率的な解の発見に収束する。
論文 参考訳(メタデータ) (2020-08-13T18:23:00Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。