Fugu-MT 論文翻訳(概要): Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation

論文の概要: Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation

arxiv url: http://arxiv.org/abs/2206.11403v1
Date: Wed, 22 Jun 2022 22:08:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-24 13:13:03.096456
Title: Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation
Title（参考訳）: ゼロショットオブジェクト操作による構造化世界モデルによるキュリオシティ探索
Authors: Cansu Sancaktar, Sebastian Blaes, Georg Martius
Abstract要約: そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
参考スコア（独自算出の注目度）: 19.840186443344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It has been a long-standing dream to design artificial agents that explore their environment efficiently via intrinsic motivation, similar to how children perform curious free play. Despite recent advances in intrinsically motivated reinforcement learning (RL), sample-efficient exploration in object manipulation scenarios remains a significant challenge as most of the relevant information lies in the sparse agent-object and object-object interactions. In this paper, we propose to use structured world models to incorporate relational inductive biases in the control loop to achieve sample-efficient and interaction-rich exploration in compositional multi-object environments. By planning for future novelty inside structured world models, our method generates free-play behavior that starts to interact with objects early on and develops more complex behavior over time. Instead of using models only to compute intrinsic rewards, as commonly done, our method showcases that the self-reinforcing cycle between good models and good exploration also opens up another avenue: zero-shot generalization to downstream tasks via model-based planning. After the entirely intrinsic task-agnostic exploration phase, our method solves challenging downstream tasks such as stacking, flipping, pick & place, and throwing that generalizes to unseen numbers and arrangements of objects without any additional training.
Abstract（参考訳）: 子どもたちが好奇心をそそられるフリープレイを行うのと同じように、本質的なモチベーションを通じて環境を効率的に探索する人工エージェントを設計することが長年の夢でした。近年のRL(Intrinsically motivated reinforcement learning)の進歩にもかかわらず、オブジェクト操作シナリオにおけるサンプル効率の探究は、スパースエージェントオブジェクトとオブジェクトオブジェクトの相互作用に関係する情報の大半が存在しているため、重要な課題である。本稿では,構成的多目的環境におけるサンプル効率と対話性に富む探索を実現するために,関係帰納的バイアスを制御ループに組み込むための構造的世界モデルを提案する。構造化世界モデル内の将来的な新しさを計画することにより、より早い段階でオブジェクトと対話し始め、時間とともにより複雑な振る舞いを発達させるフリープレイ動作を生成する。一般的に行われているように、モデルのみを用いて本質的な報酬を計算する代わりに、良いモデルと良い探索の間の自己強化サイクルがモデルベース計画による下流タスクへのゼロショット一般化という別の道を開くことを示す。全く本質的なタスク非依存探索フェーズの後,本手法は,積み重ね,転動,ピック・アンド・プレイス,スローといった下流タスクの課題を解決する。

関連論文リスト

SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models [22.96777963013918]
固有のモチベーションは、外部のタスクベースの報酬から探索を分離しようとする。 SENSEIはモデルに基づくRLエージェントに意味論的行動の本質的な動機を与えるためのフレームワークである。
論文参考訳（メタデータ） (2025-03-03T14:26:15Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文参考訳（メタデータ） (2022-10-22T18:39:33Z)
Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2022-09-29T15:24:47Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Visuomotor Mechanical Search: Learning to Retrieve Target Objects in Clutter [43.668395529368354]
本稿では,教師支援による探索,特権情報による批判,中間レベルの表現を組み合わせた新しい深部RL手順を提案する。我々のアプローチは、ベースラインやアブレーションよりも高速に学習し、より効率的な解の発見に収束する。
論文参考訳（メタデータ） (2020-08-13T18:23:00Z)
Learning Long-term Visual Dynamics with Region Proposal Interaction Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文参考訳（メタデータ） (2020-08-05T17:48:00Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)
Learning intuitive physics and one-shot imitation using state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文参考訳（メタデータ） (2020-07-03T12:29:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。