論文の概要: CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning
- arxiv url: http://arxiv.org/abs/2010.04296v2
- Date: Tue, 24 Nov 2020 16:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:49:02.806138
- Title: CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning
- Title(参考訳): CausalWorld: 因果構造と伝達学習のためのロボットマニピュレーションベンチマーク
- Authors: Ossama Ahmed and Frederik Tr\"auble and Anirudh Goyal and Alexander
Neitz and Yoshua Bengio and Bernhard Sch\"olkopf and Manuel W\"uthrich and
Stefan Bauer
- Abstract要約: CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
- 参考スコア(独自算出の注目度): 138.40338621974954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent successes of reinforcement learning (RL), it remains a
challenge for agents to transfer learned skills to related environments. To
facilitate research addressing this problem, we propose CausalWorld, a
benchmark for causal structure and transfer learning in a robotic manipulation
environment. The environment is a simulation of an open-source robotic
platform, hence offering the possibility of sim-to-real transfer. Tasks consist
of constructing 3D shapes from a given set of blocks - inspired by how children
learn to build complex structures. The key strength of CausalWorld is that it
provides a combinatorial family of such tasks with common causal structure and
underlying factors (including, e.g., robot and object masses, colors, sizes).
The user (or the agent) may intervene on all causal variables, which allows for
fine-grained control over how similar different tasks (or task distributions)
are. One can thus easily define training and evaluation distributions of a
desired difficulty level, targeting a specific form of generalization (e.g.,
only changes in appearance or object mass). Further, this common
parametrization facilitates defining curricula by interpolating between an
initial and a target task. While users may define their own task distributions,
we present eight meaningful distributions as concrete benchmarks, ranging from
simple to very challenging, all of which require long-horizon planning as well
as precise low-level motor control. Finally, we provide baseline results for a
subset of these tasks on distinct training curricula and corresponding
evaluation protocols, verifying the feasibility of the tasks in this benchmark.
- Abstract(参考訳): 近年の強化学習(RL)の成功にもかかわらず、エージェントが学習スキルを関連する環境に移すことは依然として課題である。
本稿では,ロボット操作環境における因果構造と伝達学習の指標であるcausalworldを提案する。
この環境はオープンソースのロボットプラットフォームのシミュレーションであり、sim-to-realトランスファーの可能性を提供する。
タスクは、ブロックのセットから3D形状を構築することで構成される。
CausalWorldの重要な強みは、共通因果構造と根本要因(例えば、ロボットや物体の質量、色、サイズなど)を持つそのようなタスクの組合せファミリーを提供することである。
ユーザ(またはエージェント)はすべての因果変数に介入し、異なるタスク(あるいはタスクの分散)がどのように類似しているかのきめ細かい制御を可能にする。
これにより、特定の一般化(外観や物体質量の変化のみ)を対象とする、所望の難易度レベルのトレーニングおよび評価分布を簡単に定義することができる。
さらに、この共通パラメトリゼーションは、初期タスクと目標タスクを補間することによって、カリキュラムの定義を容易にする。
ユーザが独自のタスク分布を定義する場合もありますが、単純なものから非常に難しいものまで、8つの意味のある分布を具体的なベンチマークとして提示します。
最後に、これらのタスクのサブセットに対して、異なるトレーニングカリキュラムと対応する評価プロトコルのベースライン結果を提供し、このベンチマークでタスクの実行可能性を検証する。
関連論文リスト
- A Unified Causal View of Instruction Tuning [76.1000380429553]
メタ構造因果モデル(meta-SCM)を開発し、異なるNLPタスクをデータの単一因果構造の下で統合する。
主なアイデアは、タスク要求因果関係を学習し、タスクの予測にのみそれらを使用することである。
論文 参考訳(メタデータ) (2024-02-09T07:12:56Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Learning Top-k Subtask Planning Tree based on Discriminative Representation Pre-training for Decision Making [9.302910360945042]
複雑な現実世界のタスクから抽出された事前知識による計画は、人間が正確な決定を行うために不可欠である。
マルチエンコーダと個別予測器を導入し、簡単なサブタスクのための十分なデータからタスク固有表現を学習する。
また、注意機構を用いてトップkのサブタスク計画木を生成し、未確認タスクの複雑な決定を導くためにサブタスク実行計画をカスタマイズする。
論文 参考訳(メタデータ) (2023-12-18T09:00:31Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Graph-based Reinforcement Learning meets Mixed Integer Programs: An
application to 3D robot assembly discovery [34.25379651790627]
我々は、テトリスのような構造ブロックとロボットマニピュレータを用いて、スクラッチから完全に定義済みの任意のターゲット構造を構築するという課題に対処する。
我々の新しい階層的アプローチは、タスク全体を相互に利益をもたらす3つの実行可能なレベルに効率的に分解することを目的としています。
論文 参考訳(メタデータ) (2022-03-08T14:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。