論文の概要: Powderworld: A Platform for Understanding Generalization via Rich Task
Distributions
- arxiv url: http://arxiv.org/abs/2211.13051v3
- Date: Sun, 15 Oct 2023 21:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 06:28:22.172200
- Title: Powderworld: A Platform for Understanding Generalization via Rich Task
Distributions
- Title(参考訳): powderworld:リッチなタスク分散による一般化を理解するプラットフォーム
- Authors: Kevin Frans, Phillip Isola
- Abstract要約: Powderworldは軽量だが表現力のあるシミュレーション環境で、GPU上で直接動作する。
2つのモチベーション課題が提示され、1つは世界モデリング、もう1つは強化学習である。
実験により、環境の複雑さが増大すると、世界モデルや特定の強化学習エージェントの一般化が向上することが示された。
- 参考スコア(独自算出の注目度): 42.56978592413031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the grand challenges of reinforcement learning is the ability to
generalize to new tasks. However, general agents require a set of rich, diverse
tasks to train on. Designing a `foundation environment' for such tasks is
tricky -- the ideal environment would support a range of emergent phenomena, an
expressive task space, and fast runtime. To take a step towards addressing this
research bottleneck, this work presents Powderworld, a lightweight yet
expressive simulation environment running directly on the GPU. Within
Powderworld, two motivating challenges distributions are presented, one for
world-modelling and one for reinforcement learning. Each contains hand-designed
test tasks to examine generalization. Experiments indicate that increasing the
environment's complexity improves generalization for world models and certain
reinforcement learning agents, yet may inhibit learning in high-variance
environments. Powderworld aims to support the study of generalization by
providing a source of diverse tasks arising from the same core rules.
- Abstract(参考訳): 強化学習の大きな課題の1つは、新しいタスクに一般化する能力である。
しかし、一般的なエージェントは訓練するために豊富な多様なタスクを必要とする。
そのようなタスクのための'基礎環境'を設計するのは難しい -- 理想的な環境は、様々な創発的な現象、表現力のあるタスク空間、高速なランタイムをサポートするだろう。
この研究ボトルネックに対処するために、この研究は、GPU上で直接実行される軽量で表現力のあるシミュレーション環境であるPowderworldを提示する。
powderworldでは、世界モデリングのためのものと強化学習のためのものという、2つのモチベーションのある課題が提示されている。
それぞれが一般化を調べるための手動で設計されたテストタスクを含んでいる。
実験により、環境の複雑さを増大させることで、世界モデルや特定の強化学習エージェントの一般化が向上するが、高分散環境における学習を阻害する可能性が示唆された。
Powderworldは、同じコアルールから生じる多様なタスクのソースを提供することで、一般化の研究を支援することを目指している。
関連論文リスト
- Training on more Reachable Tasks for Generalisation in Reinforcement Learning [5.855552389030083]
マルチタスク強化学習では、エージェントは一定のタスクセットでトレーニングを行い、新しいタスクに一般化する必要がある。
近年の研究では、探索の増加がこの一般化を改善することが示されているが、その理由は不明である。
マルチタスク強化学習における到達可能性の概念を導入し、初期探索フェーズがエージェントが訓練する到達可能なタスクの数を増やすことを示す。
論文 参考訳(メタデータ) (2024-10-04T16:15:31Z) - Open-World Multi-Task Control Through Goal-Aware Representation Learning
and Adaptive Horizon Prediction [29.32859058651654]
本研究では,マインクラフトにおける目標条件付き政策の学習問題について考察する。
まず,このような政策を学習する上での課題として,1)大きなシーンの多様性によるタスクの分散性,2)部分観測性に起因する環境力学の非定常性,の2つを挙げる。
本稿では,目標関連視覚状態表現の出現を促す政策として,目標感性バックボーン(GSB)を提案する。
論文 参考訳(メタデータ) (2023-01-21T08:15:38Z) - Mastering Diverse Domains through World Models [43.382115013586535]
本稿では,150以上のタスクにまたがる特殊メソッドを1つの構成で高速化するDreamerV3を提案する。
Dreamerは、Minecraftのダイヤモンドを人間のデータやカリキュラムなしでゼロから収集する最初のアルゴリズムだ。
論文 参考訳(メタデータ) (2023-01-10T18:12:16Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z) - Meta Adaptation using Importance Weighted Demonstrations [19.37671674146514]
エージェントが新しいタスクを推測することが困難である場合も少なくない。
本稿では,特定のタスクの集合に関する事前知識を活用することで,関連するタスクを一般化する新しいアルゴリズムを提案する。
環境タスクの多様性からロボットを訓練し、目に見えない環境に適応できる実験を行った。
論文 参考訳(メタデータ) (2019-11-23T07:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。