論文の概要: Curriculum Reinforcement Learning using Optimal Transport via Gradual
Domain Adaptation
- arxiv url: http://arxiv.org/abs/2210.10195v1
- Date: Tue, 18 Oct 2022 22:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:07:44.886271
- Title: Curriculum Reinforcement Learning using Optimal Transport via Gradual
Domain Adaptation
- Title(参考訳): 段階的適応による最適トランスポートを用いたカリキュラム強化学習
- Authors: Peide Huang, Mengdi Xu, Jiacheng Zhu, Laixi Shi, Fei Fang, Ding Zhao
- Abstract要約: 強化学習(CRL)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。
本研究では、ソース(補助的)とターゲットタスク分布の間のカリキュラムとしてCRLをフレーミングするという考え方に焦点をあてる。
半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。
- 参考スコア(独自算出の注目度): 46.103426976842336
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Curriculum Reinforcement Learning (CRL) aims to create a sequence of tasks,
starting from easy ones and gradually learning towards difficult tasks. In this
work, we focus on the idea of framing CRL as interpolations between a source
(auxiliary) and a target task distribution. Although existing studies have
shown the great potential of this idea, it remains unclear how to formally
quantify and generate the movement between task distributions. Inspired by the
insights from gradual domain adaptation in semi-supervised learning, we create
a natural curriculum by breaking down the potentially large task distributional
shift in CRL into smaller shifts. We propose GRADIENT, which formulates CRL as
an optimal transport problem with a tailored distance metric between tasks.
Specifically, we generate a sequence of task distributions as a geodesic
interpolation (i.e., Wasserstein barycenter) between the source and target
distributions. Different from many existing methods, our algorithm considers a
task-dependent contextual distance metric and is capable of handling
nonparametric distributions in both continuous and discrete context settings.
In addition, we theoretically show that GRADIENT enables smooth transfer
between subsequent stages in the curriculum under certain conditions. We
conduct extensive experiments in locomotion and manipulation tasks and show
that our proposed GRADIENT achieves higher performance than baselines in terms
of learning efficiency and asymptotic performance.
- Abstract(参考訳): CRL(Curriculum Reinforcement Learning)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。
本研究では、ソース(補助的)とターゲットタスク分布の補間としてCRLをフレーミングするという考え方に焦点を当てる。
既存の研究は、このアイデアの大きな可能性を示しているが、タスク分布間の移動を形式的に定量化し生成する方法は、まだ不明である。
半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。
GRADIENTは,タスク間の距離の調整による最適輸送問題としてCRLを定式化する。
具体的には、ソース分布とターゲット分布の間の測地線補間(すなわち、wasserstein barycenter)としてタスク分布列を生成する。
既存の手法と異なり, タスクに依存した文脈距離メトリックを考慮し, 連続的および離散的コンテキスト設定において非パラメトリック分布を処理できる。
さらに, グラデーションによって, 一定の条件下で, カリキュラムの次の段階をスムーズに移行できることを理論的に示す。
移動作業や操作作業において広範な実験を行い,提案したGRADIENTが学習効率と漸近的性能の点で,ベースラインよりも高い性能を達成することを示す。
関連論文リスト
- Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - Offline Multi-task Transfer RL with Representational Penalization [26.114893629771736]
オフライン強化学習(RL)における表現伝達の問題について検討する。
本稿では,学習者表現に対する不確実性度を計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-19T21:52:44Z) - On the Benefit of Optimal Transport for Curriculum Reinforcement Learning [32.59609255906321]
タスク分布間のキュリキュラをフレーミングすることに焦点を当てる。
我々は,カリキュラムの生成を制約付き最適輸送問題とする。
ベンチマークでは、既存のCRL法により、このカリキュラム生成方法が改善できることが示されている。
論文 参考訳(メタデータ) (2023-09-25T12:31:37Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach [21.44737454610142]
メタ強化学習(メタRL)では、エージェントは、同じタスク分布から引き出された新しいタスクの迅速な解決方法のセットから学習する。
この研究で検討する質問は、高い確率で最適な行動を保証するために、どの程度のトレーニングタスクが必要かということだ。
本研究では,タスク分布を直接学習し,密度推定手法を用いて,学習したタスク分布に関するポリシーを訓練するアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:32:19Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Deep transfer learning for partial differential equations under
conditional shift with DeepONet [0.0]
深層演算子ネットワーク(DeepONet)を用いた条件シフト下でのタスク固有学習のための新しいTLフレームワークを提案する。
条件埋め込み演算子理論に触発されて、ソース領域とターゲット特徴領域の間の統計的距離を測定する。
提案するTLフレームワークは,ソースドメインとターゲットドメインの間に大きな違いがあるにも関わらず,高速かつ効率的なマルチタスク演算子学習を可能にする。
論文 参考訳(メタデータ) (2022-04-20T23:23:38Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。