論文の概要: Self-Paced Absolute Learning Progress as a Regularized Approach to
Curriculum Learning
- arxiv url: http://arxiv.org/abs/2306.05769v1
- Date: Fri, 9 Jun 2023 09:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 13:58:24.938980
- Title: Self-Paced Absolute Learning Progress as a Regularized Approach to
Curriculum Learning
- Title(参考訳): カリキュラム学習への正規化アプローチとしての自己ペース絶対学習の進歩
- Authors: Tobias Niehues, Ulla Scheler, Pascal Klink
- Abstract要約: 絶対学習プログレス(ALP)に基づくカリキュラムは、異なる環境で成功したが、新しいタスクで既に学習された振る舞いを繰り返すことによるムダ計算は成功している。
我々は,SPALP(Self-Paced Absolute Learning Progress)と呼ばれる,自己完結型(Deep)学習に基づく新たな正規化手法を導入することで,この問題を解決する。
提案手法は,全ての場合においてオリジナルALPに匹敵する性能を達成し,その2つの場合においてALPよりも高速に到達する。
- 参考スコア(独自算出の注目度): 4.054285623919103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The usability of Reinforcement Learning is restricted by the large
computation times it requires. Curriculum Reinforcement Learning speeds up
learning by defining a helpful order in which an agent encounters tasks, i.e.
from simple to hard. Curricula based on Absolute Learning Progress (ALP) have
proven successful in different environments, but waste computation on repeating
already learned behaviour in new tasks. We solve this problem by introducing a
new regularization method based on Self-Paced (Deep) Learning, called
Self-Paced Absolute Learning Progress (SPALP). We evaluate our method in three
different environments. Our method achieves performance comparable to original
ALP in all cases, and reaches it quicker than ALP in two of them. We illustrate
possibilities to further improve the efficiency and performance of SPALP.
- Abstract(参考訳): 強化学習のユーザビリティは、必要な膨大な計算時間によって制限される。
カリキュラム強化学習は、エージェントがタスク、すなわち単純から困難に遭遇する有用な順序を定義することで学習をスピードアップする。
絶対学習プログレス(ALP)に基づくカリキュラムは、異なる環境で成功したが、新しいタスクで既に学習された振る舞いを繰り返すことによるムダ計算は成功している。
本研究では,SPALP(Self-Paced Absolute Learning Progress)と呼ばれる,自己更新学習に基づく新たな正規化手法を導入することで,この問題を解決する。
提案手法を3つの異なる環境で評価する。
提案手法は,全ての場合においてオリジナルALPに匹敵する性能を達成し,その2つの場合においてALPよりも高速に到達する。
SPALPの効率と性能をさらに向上させる可能性を示す。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - Active Transfer Learning for Efficient Video-Specific Human Pose
Estimation [16.415080031134366]
ヒューマン・ポース(HP)推定は幅広い応用のために活発に研究されている。
本稿では,アクティブラーニング(AL)とトランスファーラーニング(TL)を組み合わせて,HP推定器を個々のビデオ領域に効率よく適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T21:56:29Z) - Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。
本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。
3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-20T03:59:11Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。