論文の概要: Causal-Paced Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.02910v1
- Date: Tue, 24 Jun 2025 20:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.508074
- Title: Causal-Paced Deep Reinforcement Learning
- Title(参考訳): Causal-Paced Deep Reinforcement Learning
- Authors: Geonwoo Cho, Jaegyun Im, Doyoon Kim, Sundong Kim,
- Abstract要約: Causal-Paced Deep Reinforcement Learning (CP-DRL)は、相互作用データ近似に基づくタスク間のSCM差を認識するカリキュラム学習フレームワークである。
実証的に、CP-DRLはPoint Massベンチマークの既存のカリキュラム手法よりも優れている。
- 参考スコア(独自算出の注目度): 4.728991543521559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing effective task sequences is crucial for curriculum reinforcement learning (CRL), where agents must gradually acquire skills by training on intermediate tasks. A key challenge in CRL is to identify tasks that promote exploration, yet are similar enough to support effective transfer. While recent approach suggests comparing tasks via their Structural Causal Models (SCMs), the method requires access to ground-truth causal structures, an unrealistic assumption in most RL settings. In this work, we propose Causal-Paced Deep Reinforcement Learning (CP-DRL), a curriculum learning framework aware of SCM differences between tasks based on interaction data approximation. This signal captures task novelty, which we combine with the agent's learnability, measured by reward gain, to form a unified objective. Empirically, CP-DRL outperforms existing curriculum methods on the Point Mass benchmark, achieving faster convergence and higher returns. CP-DRL demonstrates reduced variance with comparable final returns in the Bipedal Walker-Trivial setting, and achieves the highest average performance in the Infeasible variant. These results indicate that leveraging causal relationships between tasks can improve the structure-awareness and sample efficiency of curriculum reinforcement learning. We provide the full implementation of CP-DRL to facilitate the reproduction of our main results at https://github.com/Cho-Geonwoo/CP-DRL.
- Abstract(参考訳): 効果的なタスクシーケンスを設計することはカリキュラム強化学習(CRL)において重要である。
CRLの重要な課題は、探索を促進するタスクを特定することであるが、効果的な転送をサポートするのに十分似ている。
近年の手法では, 構造因果モデル (Structure Causal Models, SCM) によるタスクの比較が提案されている。
本研究では,対話データ近似に基づくタスク間のSCM差を認識したカリキュラム学習フレームワークであるCausal-Paced Deep Reinforcement Learning (CP-DRL)を提案する。
この信号は、エージェントの学習可能性と組み合わさったタスクの新規性を捉え、報酬ゲインによって測定され、統一された目的を形成する。
実証的に、CP-DRLはPoint Massベンチマークの既存のカリキュラムメソッドよりも優れており、より高速な収束とより高いリターンを実現している。
CP-DRLはバイペダル・ウォーカー・トリビシアル・セッティングにおいて、同等のファイナル・リターンとのばらつきを減らし、インファシブル・バリアントにおける最高の平均性能を達成する。
これらの結果から,タスク間の因果関係の活用により,カリキュラム強化学習の構造意識とサンプル効率が向上することが示唆された。
我々はCP-DRLの完全な実装を提供し、https://github.com/Cho-Geonwoo/CP-DRLで主要な結果の再現を容易にする。
関連論文リスト
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning [72.53466291156604]
教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。
まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-02T19:46:41Z) - Knowledge capture, adaptation and composition (KCAC): A framework for cross-task curriculum learning in robotic manipulation [6.683222869973898]
強化学習(Reinforcement Learning, RL)は、ロボット操作において顕著な可能性を示しているが、サンプルの非効率性や解釈可能性の欠如において課題に直面している。
本稿では,クロスタスクのカリキュラム学習を通じてRLに知識伝達を統合するための知識キャプチャ,適応,構成フレームワークを提案する。
その結果,従来のRL法に比べてタスク成功率を10%向上させながら,トレーニング時間の40%削減を実現した。
論文 参考訳(メタデータ) (2025-05-15T17:30:29Z) - CausalCOMRL: Context-Based Offline Meta-Reinforcement Learning with Causal Representation [13.575628222213387]
CausalCOMRLは、因果表現学習を統合するコンテキストベースのOMRL手法である。
CausalCOMRLは,ほとんどのベンチマークにおいて,他の手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-03T01:43:54Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - On the Benefit of Optimal Transport for Curriculum Reinforcement Learning [32.59609255906321]
タスク分布間のキュリキュラをフレーミングすることに焦点を当てる。
我々は,カリキュラムの生成を制約付き最適輸送問題とする。
ベンチマークでは、既存のCRL法により、このカリキュラム生成方法が改善できることが示されている。
論文 参考訳(メタデータ) (2023-09-25T12:31:37Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Curriculum Reinforcement Learning using Optimal Transport via Gradual
Domain Adaptation [46.103426976842336]
強化学習(CRL)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。
本研究では、ソース(補助的)とターゲットタスク分布の間のカリキュラムとしてCRLをフレーミングするという考え方に焦点をあてる。
半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。
論文 参考訳(メタデータ) (2022-10-18T22:33:33Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。