論文の概要: Transferable Curricula through Difficulty Conditioned Generators
- arxiv url: http://arxiv.org/abs/2306.13028v1
- Date: Thu, 22 Jun 2023 16:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 13:36:30.829468
- Title: Transferable Curricula through Difficulty Conditioned Generators
- Title(参考訳): 複雑コンディショニング発電機によるトランスファタブル・キュリキュラ
- Authors: Sidney Tio, Pradeep Varakantham
- Abstract要約: 強化学習(RL)は、Starcraft、Go、Chessなどの複雑なタスクにおいて、超人的なパフォーマンスを示す。
近年のカリキュラム生成手法はRLエージェントを効率的に訓練することに重点を置いている。
私たちは名前のついた方法を紹介します。
パラメータ化環境におけるRLエージェントのトレーニングにおいて有望な結果を示す環境応答モデル(PERM)。
- 参考スコア(独自算出の注目度): 8.140037969280716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in reinforcement learning (RL) have demonstrated superhuman
performance in complex tasks such as Starcraft, Go, Chess etc. However,
knowledge transfer from Artificial "Experts" to humans remain a significant
challenge. A promising avenue for such transfer would be the use of curricula.
Recent methods in curricula generation focuses on training RL agents
efficiently, yet such methods rely on surrogate measures to track student
progress, and are not suited for training robots in the real world (or more
ambitiously humans). In this paper, we introduce a method named Parameterized
Environment Response Model (PERM) that shows promising results in training RL
agents in parameterized environments. Inspired by Item Response Theory, PERM
seeks to model difficulty of environments and ability of RL agents directly.
Given that RL agents and humans are trained more efficiently under the "zone of
proximal development", our method generates a curriculum by matching the
difficulty of an environment to the current ability of the student. In
addition, PERM can be trained offline and does not employ non-stationary
measures of student ability, making it suitable for transfer between students.
We demonstrate PERM's ability to represent the environment parameter space, and
training with RL agents with PERM produces a strong performance in
deterministic environments. Lastly, we show that our method is transferable
between students, without any sacrifice in training quality.
- Abstract(参考訳): 強化学習(RL)の進歩は、Starcraft、Go、Chessといった複雑なタスクにおいて超人的なパフォーマンスを示している。
しかし、人為的な「専門家」から人間への知識移転は依然として大きな課題である。
このような移転のための有望な道は、キュリキュラの使用である。
近年のカリキュラム生成手法はRLエージェントを効率的に訓練することに重点を置いているが、これらの手法は学生の進歩を追跡するための補助手段に依存しており、現実世界(あるいはより野心的な人間)でのロボットの訓練には適していない。
本稿では,パラメータ化環境におけるRLエージェントのトレーニングにおいて有望な結果を示すパラメータ化環境応答モデル(PERM)を提案する。
項目応答理論に触発されて、PERMは環境の難しさとRLエージェントの能力を直接モデル化しようとする。
rlエージェントと人間は「近位開発ゾーン」の下でより効率的に訓練されているため、学習者の現在の能力と環境の難易度を一致させることでカリキュラムを作成できる。
さらに、PERMはオフラインでトレーニングすることができ、学生間の移動に適した非定常的な学生能力の尺度を採用できない。
PERMが環境パラメータ空間を表現する能力を示し、PERMを用いたRLエージェントによるトレーニングは、決定論的環境において強い性能を示す。
最後に,本手法は,学習品質を犠牲にすることなく,学生間で移行可能であることを示す。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Training Reinforcement Learning Agents and Humans With
Difficulty-Conditioned Generators [6.98887755747127]
我々は,難易度と能力を直接モデル化することにより,パラメータ化環境における強化学習エージェントと人間学習者を適応させる。
PERMは、項目応答理論(IRT)にヒントを得て、環境の難易度を個々の能力と整合させ、近接開発ベースのカリキュラムのゾーンを作成する。
本稿では,PERMの適応性を活かした2段階のトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-12-04T19:45:06Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。