論文の概要: Reward-Free Curricula for Training Robust World Models
- arxiv url: http://arxiv.org/abs/2306.09205v2
- Date: Wed, 24 Jan 2024 18:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:38:45.875545
- Title: Reward-Free Curricula for Training Robust World Models
- Title(参考訳): ロバスト世界モデルの学習用リワードフリーカリキュラム
- Authors: Marc Rigter, Minqi Jiang, Ingmar Posner
- Abstract要約: 報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。
我々は、ロバストな世界モデルをトレーニングするための報酬のない設定でカリキュラムを生成するという新しい問題に対処する。
環境インスタンス全体にわたる世界モデルにおける最大誤差を最小限に抑えるために,ミニマックス後悔が結びつくことを示す。
この結果は,ロバストネスのための環境横断的な知識の重み付け獲得というアルゴリズム,WAKER: Weighted Acquisition of Knowledges for Environmentsに伝達される。
- 参考スコア(独自算出の注目度): 37.13175950264479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a recent surge of interest in developing generally-capable
agents that can adapt to new tasks without additional training in the
environment. Learning world models from reward-free exploration is a promising
approach, and enables policies to be trained using imagined experience for new
tasks. However, achieving a general agent requires robustness across different
environments. In this work, we address the novel problem of generating
curricula in the reward-free setting to train robust world models. We consider
robustness in terms of minimax regret over all environment instantiations and
show that the minimax regret can be connected to minimising the maximum error
in the world model across environment instances. This result informs our
algorithm, WAKER: Weighted Acquisition of Knowledge across Environments for
Robustness. WAKER selects environments for data collection based on the
estimated error of the world model for each environment. Our experiments
demonstrate that WAKER outperforms several baselines, resulting in improved
robustness, efficiency, and generalisation.
- Abstract(参考訳): 環境に新たなトレーニングを加えることなく、新しいタスクに適応できる汎用的なエージェントの開発への関心が最近高まっている。
報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。
しかし、汎用エージェントを実現するには、異なる環境にまたがる堅牢性が必要である。
本研究では、ロバストな世界モデルをトレーニングするための報酬のない環境でカリキュラムを生成するという新しい問題に対処する。
我々は,すべての環境インスタンスに対するミニマックス後悔の観点からのロバスト性を検討し,環境インスタンス間における世界モデルにおける最大誤差の最小化とミニマックス後悔との関連性を示す。
この結果は,ロバストネスのための環境横断的な知識の重み付け獲得というアルゴリズム,WAKER: Weighted Acquisition of Knowledges for Environmentsに伝達される。
WAKERは、各環境のワールドモデルの推定誤差に基づいて、データ収集のための環境を選択する。
我々の実験は、WAKERがいくつかのベースラインを上回り、ロバスト性、効率、一般化が向上することを示した。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - OPEn: An Open-ended Physics Environment for Learning Without a Task [132.6062618135179]
オープンエンドな物理環境で学んだ世界のモデルが、特定のタスクを伴わずに、下流の物理推論タスクに再利用できるかどうかについて検討する。
我々は,OPEn(Open-ended Physics ENvironment)のベンチマークを構築し,この環境における学習表現をテストするためのいくつかのタスクを明示的に設計する。
その結果、教師なしのコントラスト学習を表現学習に用いたエージェントと、探索のためのインパクト駆動学習が最良の結果となった。
論文 参考訳(メタデータ) (2021-10-13T17:48:23Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。