論文の概要: On the Benefit of Optimal Transport for Curriculum Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2309.14091v1
- Date: Mon, 25 Sep 2023 12:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 15:40:08.194443
- Title: On the Benefit of Optimal Transport for Curriculum Reinforcement
Learning
- Title(参考訳): カリキュラム強化学習のための最適輸送の利点について
- Authors: Pascal Klink, Carlo D'Eramo, Jan Peters, Joni Pajarinen
- Abstract要約: タスク分布間のキュリキュラをフレーミングすることに焦点を当てる。
我々は,カリキュラムの生成を制約付き最適輸送問題とする。
ベンチマークでは、既存のCRL法により、このカリキュラム生成方法が改善できることが示されている。
- 参考スコア(独自算出の注目度): 35.60888943345327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curriculum reinforcement learning (CRL) allows solving complex tasks by
generating a tailored sequence of learning tasks, starting from easy ones and
subsequently increasing their difficulty. Although the potential of curricula
in RL has been clearly shown in various works, it is less clear how to generate
them for a given learning environment, resulting in various methods aiming to
automate this task. In this work, we focus on framing curricula as
interpolations between task distributions, which has previously been shown to
be a viable approach to CRL. Identifying key issues of existing methods, we
frame the generation of a curriculum as a constrained optimal transport problem
between task distributions. Benchmarks show that this way of curriculum
generation can improve upon existing CRL methods, yielding high performance in
various tasks with different characteristics.
- Abstract(参考訳): CRL(Curriculum reinforcement learning)は、簡単なタスクから始まり、難易度を高めて、一連の学習タスクを生成することで、複雑なタスクの解決を可能にする。
rlのカリキュラムの可能性は様々な作品に明らかに示されているが、与えられた学習環境に対してどのようにそれを生成するかは明確ではなく、このタスクを自動化するための様々な方法を生み出した。
本研究では,これまでCRLに対する有効なアプローチであったタスク分布の補間として,キュリキュラのフレーミングに着目した。
既存の方法の重要な課題を識別し、タスク分散間の最適輸送問題としてカリキュラムの作成を考察する。
ベンチマークの結果,既存のCRL法により,カリキュラム生成の手法が向上し,異なる特徴を持つタスクにおいて高い性能が得られることが示された。
関連論文リスト
- Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Understanding the Complexity Gains of Single-Task RL with a Curriculum [83.46923851724408]
強化学習 (Reinforcement Learning, RL) の問題は, 十分に形が整った報酬なしでは困難である。
カリキュラムで定義されるマルチタスクRL問題として、シングルタスクRL問題を再構成する理論的枠組みを提供する。
マルチタスクRL問題における各タスクの逐次解法は、元の単一タスク問題の解法よりも計算効率がよいことを示す。
論文 参考訳(メタデータ) (2022-12-24T19:46:47Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Curriculum Reinforcement Learning using Optimal Transport via Gradual
Domain Adaptation [46.103426976842336]
強化学習(CRL)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。
本研究では、ソース(補助的)とターゲットタスク分布の間のカリキュラムとしてCRLをフレーミングするという考え方に焦点をあてる。
半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。
論文 参考訳(メタデータ) (2022-10-18T22:33:33Z) - A Probabilistic Interpretation of Self-Paced Learning with Applications
to Reinforcement Learning [30.69129405392038]
強化学習における自動カリキュラム生成のアプローチを提案する。
我々は、よく知られた自己評価学習パラダイムを、トレーニングタスクよりも分布を誘導するものとして定式化する。
実験により、この誘導分布のトレーニングは、RLアルゴリズム間の局所最適性の低下を避けるのに役立つことが示された。
論文 参考訳(メタデータ) (2021-02-25T21:06:56Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。