論文の概要: SkillS: Adaptive Skill Sequencing for Efficient Temporally-Extended
Exploration
- arxiv url: http://arxiv.org/abs/2211.13743v1
- Date: Thu, 24 Nov 2022 18:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:43:56.259378
- Title: SkillS: Adaptive Skill Sequencing for Efficient Temporally-Extended
Exploration
- Title(参考訳): スキル:効率的な時間拡張探索のための適応的スキルシーケンシング
- Authors: Giulia Vezzani, Dhruva Tirumala, Markus Wulfmeier, Dushyant Rao, Abbas
Abdolmaleki, Ben Moran, Tuomas Haarnoja, Jan Humplik, Roland Hafner, Michael
Neunert, Claudio Fantacci, Tim Hertweck, Thomas Lampe, Fereshteh Sadeghi,
Nicolas Heess and Martin Riedmiller
- Abstract要約: スキルの再利用は最も一般的なアプローチの1つだが、現在の手法にはかなりの制限がある。
これらの問題を緩和するための代替アプローチを導入する。
提案手法は,既存の時間的拡張スキルの探索を学習するが,生経験から直接最終方針を学習する。
- 参考スコア(独自算出の注目度): 21.764280583041703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to effectively reuse prior knowledge is a key requirement when
building general and flexible Reinforcement Learning (RL) agents. Skill reuse
is one of the most common approaches, but current methods have considerable
limitations.For example, fine-tuning an existing policy frequently fails, as
the policy can degrade rapidly early in training. In a similar vein,
distillation of expert behavior can lead to poor results when given sub-optimal
experts. We compare several common approaches for skill transfer on multiple
domains including changes in task and system dynamics. We identify how existing
methods can fail and introduce an alternative approach to mitigate these
problems. Our approach learns to sequence existing temporally-extended skills
for exploration but learns the final policy directly from the raw experience.
This conceptual split enables rapid adaptation and thus efficient data
collection but without constraining the final solution.It significantly
outperforms many classical methods across a suite of evaluation tasks and we
use a broad set of ablations to highlight the importance of differentc
omponents of our method.
- Abstract(参考訳): 汎用的で柔軟な強化学習(RL)エージェントを構築する場合、事前知識を効果的に再利用する能力は重要な要件である。
スキルの再利用は最も一般的なアプローチの1つだが、現在の方法にはかなりの制限がある。例えば、既存のポリシーの微調整はしばしば失敗する。
同様に、専門家の行動の蒸留は、準最適専門家が与えられた結果に乏しい。
タスクやシステムダイナミクスの変化を含む,複数の領域におけるスキル伝達の一般的なアプローチを比較した。
既存の手法がいかに失敗するかを特定し、これらの問題を緩和するための代替手法を導入する。
提案手法では,既存の時間的拡張スキルの探索を学習するが,実際の経験から最終方針を直接学習する。
この概念分割は、迅速な適応と効率的なデータ収集を可能にするが、最終解を制約することなく、様々な評価課題において多くの古典的手法より優れており、我々は、その方法の相違点の重要性を強調するために、幅広いアブリケーションを用いている。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Class-Incremental Learning via Knowledge Amalgamation [14.513858688486701]
破滅的な忘れ込みは、継続的な学習環境におけるディープラーニングアルゴリズムの展開を妨げる重要な問題である。
我々は、知識の融合(CFA)による破滅的な忘れを解消するための代替戦略を提唱した。
CFAは、過去のタスクに特化した複数の異種教師モデルから学生ネットワークを学習し、現在のオフライン手法に適用することができる。
論文 参考訳(メタデータ) (2022-09-05T19:49:01Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Decaying Clipping Range in Proximal Policy Optimization [0.0]
PPO(Proximal Policy Optimization)は、強化学習で最も広く使用されているアルゴリズムの1つです。
その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。
トレーニング全体を通して線形および指数関数的に減衰するクリッピング範囲のアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:08:05Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。