Fugu-MT 論文翻訳(概要): Proximal Curriculum for Reinforcement Learning Agents

論文の概要: Proximal Curriculum for Reinforcement Learning Agents

arxiv url: http://arxiv.org/abs/2304.12877v1
Date: Tue, 25 Apr 2023 14:49:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 20:17:32.900352
Title: Proximal Curriculum for Reinforcement Learning Agents
Title（参考訳）: 強化学習エージェントのための近位カリキュラム
Authors: Georgios Tzannetos, B\'arbara Gomes Ribeiro, Parameswaran Kamalaruban, Adish Singla
Abstract要約: 近縁開発ゾーン(ZPD)の教育的概念に触発されたカリキュラム戦略であるProCuRLを設計する。 ProCuRLは、学習者が難しすぎても難しすぎるタスクを選択するとき、学習の進捗が最大になるという直感を捉えます。
参考スコア（独自算出の注目度）: 17.654532900660712
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of curriculum design for reinforcement learning (RL) agents in contextual multi-task settings. Existing techniques on automatic curriculum design typically require domain-specific hyperparameter tuning or have limited theoretical underpinnings. To tackle these limitations, we design our curriculum strategy, ProCuRL, inspired by the pedagogical concept of Zone of Proximal Development (ZPD). ProCuRL captures the intuition that learning progress is maximized when picking tasks that are neither too hard nor too easy for the learner. We mathematically derive ProCuRL by analyzing two simple learning settings. We also present a practical variant of ProCuRL that can be directly integrated with deep RL frameworks with minimal hyperparameter tuning. Experimental results on a variety of domains demonstrate the effectiveness of our curriculum strategy over state-of-the-art baselines in accelerating the training process of deep RL agents.
Abstract（参考訳）: マルチタスク環境における強化学習(RL)エージェントのカリキュラム設計の問題点を考察する。既存の自動カリキュラム設計技術では、ドメイン固有のハイパーパラメータチューニングが必要か、理論的な基盤が限られている。これらの制約に対処するため,我々は,ZPD(Zone of Proximal Development)という教育的概念に触発されたカリキュラム戦略であるProCuRLを設計する。 ProCuRLは、学習者が難しすぎても難しすぎるタスクを選択するとき、学習の進捗が最大になるという直感を捉えます。 ProCuRLは2つの簡単な学習条件を解析することで数学的に導出する。また,最小限のハイパーパラメータチューニングを施した深部RLフレームワークと直接統合可能なProCuRLの実用版も提示する。各種領域に対する実験結果から, 深部RLエージェントのトレーニングプロセスの促進に向け, 最先端のベースラインに対するカリキュラム戦略の有効性が示された。

関連論文リスト

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。 E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文参考訳（メタデータ） (2025-06-07T02:41:54Z)
Self-Evolving Curriculum for LLM Reasoning [108.23021254812258]
自己進化カリキュラム(Self-Evolving Curriculum, SEC)は、RLファインチューニングプロセスと並行してカリキュラムポリシーを学習する自動カリキュラム学習手法である。実験により、SECはモデルの推論能力を大幅に改善し、より困難で配布外のテスト問題へのより良い一般化を可能にした。
論文参考訳（メタデータ） (2025-05-20T23:17:15Z)
Reinforcement Learning for AMR Charging Decisions: The Impact of Reward and Action Space Design [44.99833362998488]
大規模ブロック積み重ね倉庫における自律移動ロボットの充電戦略を最適化するための新しい強化学習(RL)設計を提案する。本研究は、フレキシブルな設定から、よりガイド付きでドメインインフォームドな設計構成まで、さまざまな報酬とアクション空間の構成がエージェントのパフォーマンスにどのように影響するかに焦点を当てる。
論文参考訳（メタデータ） (2025-05-16T11:33:29Z)
PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators [2.334978724544296]
制御可能なデザイナーエージェントを訓練する手段として,PCGRL (Procedural Content Generation) が導入された。 PCGRLはゲームデザイナーにユニークな余裕を提供するが、RLエージェントを訓練する計算集約的なプロセスによって制約される。我々はJaxにいくつかのPCGRL環境を実装し、GPU上で学習とシミュレーションのあらゆる側面が並列に行われるようにした。
論文参考訳（メタデータ） (2024-08-22T16:30:24Z)
Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。理論的には,本手法は訓練作業数のサブリニアな後悔を示す。都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文参考訳（メタデータ） (2024-08-08T14:46:01Z)
Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文参考訳（メタデータ） (2024-05-03T21:07:54Z)
RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文参考訳（メタデータ） (2024-02-29T16:07:22Z)
PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文参考訳（メタデータ） (2023-06-10T09:41:30Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文参考訳（メタデータ） (2022-07-29T14:52:47Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2022-02-22T20:44:04Z)
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文参考訳（メタデータ） (2022-02-14T01:31:46Z)
Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文参考訳（メタデータ） (2022-01-26T20:43:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。