論文の概要: Proximal Curriculum for Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2304.12877v1
- Date: Tue, 25 Apr 2023 14:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:17:32.900352
- Title: Proximal Curriculum for Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントのための近位カリキュラム
- Authors: Georgios Tzannetos, B\'arbara Gomes Ribeiro, Parameswaran Kamalaruban,
Adish Singla
- Abstract要約: 近縁開発ゾーン(ZPD)の教育的概念に触発されたカリキュラム戦略であるProCuRLを設計する。
ProCuRLは、学習者が難しすぎても難しすぎるタスクを選択するとき、学習の進捗が最大になるという直感を捉えます。
- 参考スコア(独自算出の注目度): 17.654532900660712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of curriculum design for reinforcement learning (RL)
agents in contextual multi-task settings. Existing techniques on automatic
curriculum design typically require domain-specific hyperparameter tuning or
have limited theoretical underpinnings. To tackle these limitations, we design
our curriculum strategy, ProCuRL, inspired by the pedagogical concept of Zone
of Proximal Development (ZPD). ProCuRL captures the intuition that learning
progress is maximized when picking tasks that are neither too hard nor too easy
for the learner. We mathematically derive ProCuRL by analyzing two simple
learning settings. We also present a practical variant of ProCuRL that can be
directly integrated with deep RL frameworks with minimal hyperparameter tuning.
Experimental results on a variety of domains demonstrate the effectiveness of
our curriculum strategy over state-of-the-art baselines in accelerating the
training process of deep RL agents.
- Abstract(参考訳): マルチタスク環境における強化学習(RL)エージェントのカリキュラム設計の問題点を考察する。
既存の自動カリキュラム設計技術では、ドメイン固有のハイパーパラメータチューニングが必要か、理論的な基盤が限られている。
これらの制約に対処するため,我々は,ZPD(Zone of Proximal Development)という教育的概念に触発されたカリキュラム戦略であるProCuRLを設計する。
ProCuRLは、学習者が難しすぎても難しすぎるタスクを選択するとき、学習の進捗が最大になるという直感を捉えます。
ProCuRLは2つの簡単な学習条件を解析することで数学的に導出する。
また,最小限のハイパーパラメータチューニングを施した深部RLフレームワークと直接統合可能なProCuRLの実用版も提示する。
各種領域に対する実験結果から, 深部RLエージェントのトレーニングプロセスの促進に向け, 最先端のベースラインに対するカリキュラム戦略の有効性が示された。
関連論文リスト
- PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators [2.334978724544296]
制御可能なデザイナーエージェントを訓練する手段として,PCGRL (Procedural Content Generation) が導入された。
PCGRLはゲームデザイナーにユニークな余裕を提供するが、RLエージェントを訓練する計算集約的なプロセスによって制約される。
我々はJaxにいくつかのPCGRL環境を実装し、GPU上で学習とシミュレーションのあらゆる側面が並列に行われるようにした。
論文 参考訳(メタデータ) (2024-08-22T16:30:24Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。
我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。
本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-22T20:44:04Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。