論文の概要: Causally Aligned Curriculum Learning
- arxiv url: http://arxiv.org/abs/2503.16799v1
- Date: Fri, 21 Mar 2025 02:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:09.449753
- Title: Causally Aligned Curriculum Learning
- Title(参考訳): 因果的適応型カリキュラム学習
- Authors: Mingxuan Li, Junzhe Zhang, Elias Bareinboim,
- Abstract要約: 本稿では、因果レンズによるカリキュラムRLの問題について検討する。
因果的に整合したソースタスクを特徴付ける十分なグラフィカルな条件を導出する。
因果整合型カリキュラムを生成するための効率的なアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 69.11672390876763
- License:
- Abstract: A pervasive challenge in Reinforcement Learning (RL) is the "curse of dimensionality" which is the exponential growth in the state-action space when optimizing a high-dimensional target task. The framework of curriculum learning trains the agent in a curriculum composed of a sequence of related and more manageable source tasks. The expectation is that when some optimal decision rules are shared across source tasks and the target task, the agent could more quickly pick up the necessary skills to behave optimally in the environment, thus accelerating the learning process. However, this critical assumption of invariant optimal decision rules does not necessarily hold in many practical applications, specifically when the underlying environment contains unobserved confounders. This paper studies the problem of curriculum RL through causal lenses. We derive a sufficient graphical condition characterizing causally aligned source tasks, i.e., the invariance of optimal decision rules holds. We further develop an efficient algorithm to generate a causally aligned curriculum, provided with qualitative causal knowledge of the target task. Finally, we validate our proposed methodology through experiments in discrete and continuous confounded tasks with pixel observations.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)における広範囲にわたる課題は、高次元の目標タスクを最適化する際の状態空間の指数的な成長である「次元の曲線」である。
カリキュラム学習の枠組みは、関連する、より管理しやすいソースタスクのシーケンスからなるカリキュラムのエージェントを訓練する。
ソースタスクと対象タスク間で最適な決定ルールが共有されると、エージェントは環境の中で最適な振る舞いをするために必要なスキルを素早く習得し、学習プロセスの加速が期待できる。
しかし、この不変最適決定規則の批判的な仮定は、特に基礎となる環境が観測されていない共同設立者を含む場合、多くの実践的な応用において必ずしも成り立たない。
本稿では、因果レンズによるカリキュラムRLの問題について検討する。
我々は、因果的に整合したソースタスク、すなわち最適な決定規則の不分散を特徴付ける十分なグラフィカルな条件を導出する。
さらに、目的タスクの定性的な因果的知識を備えた因果的整合カリキュラムを生成するための効率的なアルゴリズムを開発する。
最後に,画素観測による離散的かつ連続的な統合タスクにおける実験を通して提案手法を検証する。
関連論文リスト
- Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - Outcome-directed Reinforcement Learning by Uncertainty & Temporal
Distance-Aware Curriculum Goal Generation [29.155620517531656]
現在の強化学習(RL)は、望まれる結果や高い報奨がほとんど得られない挑戦的な探索問題の解決に苦しむことが多い。
両部マッチング問題を解くことにより,結果指向のRLに対する不確実性と時間的距離対応の目標生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も大幅に向上した。
論文 参考訳(メタデータ) (2023-01-27T14:25:04Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Curriculum Reinforcement Learning using Optimal Transport via Gradual
Domain Adaptation [46.103426976842336]
強化学習(CRL)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。
本研究では、ソース(補助的)とターゲットタスク分布の間のカリキュラムとしてCRLをフレーミングするという考え方に焦点をあてる。
半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。
論文 参考訳(メタデータ) (2022-10-18T22:33:33Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Task-Optimal Exploration in Linear Dynamical Systems [29.552894877883883]
タスクガイドによる探索を行い、タスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。
我々は、関心のあるタスクを完了させることの難しさを明示的に定量化する、インスタンス依存およびタスク依存の下位境界を提供する。
本研究では,タスク完了に必要な情報を正確に収集し,インスタンスとタスクの最適サンプルの複雑さを達成するための有限時間境界を提供することにより,環境を最適に探索することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:42:22Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。