論文の概要: ASPiRe:Adaptive Skill Priors for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.15205v1
- Date: Fri, 30 Sep 2022 03:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:30:49.339288
- Title: ASPiRe:Adaptive Skill Priors for Reinforcement Learning
- Title(参考訳): ASPiRe:強化学習のための適応スキルプライオリティ
- Authors: Mengda Xu, Manuela Veloso, Shuran Song
- Abstract要約: ASPiRe(Adaptive Skill Prior for RL)は、強化学習を加速するための新しいアプローチである。
我々のフレームワークは、専門的なデータセットのコレクションから、異なる区別スキルのライブラリを学習する。
我々の実験は、ASPiReが新しい下流タスクの学習を著しく加速できることを示した。
- 参考スコア(独自算出の注目度): 28.376277797807706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ASPiRe (Adaptive Skill Prior for RL), a new approach that
leverages prior experience to accelerate reinforcement learning. Unlike
existing methods that learn a single skill prior from a large and diverse
dataset, our framework learns a library of different distinction skill priors
(i.e., behavior priors) from a collection of specialized datasets, and learns
how to combine them to solve a new task. This formulation allows the algorithm
to acquire a set of specialized skill priors that are more reusable for
downstream tasks; however, it also brings up additional challenges of how to
effectively combine these unstructured sets of skill priors to form a new prior
for new tasks. Specifically, it requires the agent not only to identify which
skill prior(s) to use but also how to combine them (either sequentially or
concurrently) to form a new prior. To achieve this goal, ASPiRe includes
Adaptive Weight Module (AWM) that learns to infer an adaptive weight assignment
between different skill priors and uses them to guide policy learning for
downstream tasks via weighted Kullback-Leibler divergences. Our experiments
demonstrate that ASPiRe can significantly accelerate the learning of new
downstream tasks in the presence of multiple priors and show improvement on
competitive baselines.
- Abstract(参考訳): ASPiRe(Adaptive Skill Prior for RL)は、事前経験を活用して強化学習を促進する新しいアプローチである。
大規模で多様なデータセットから1つのスキルを学習する既存の方法とは異なり、我々のフレームワークは専門的なデータセットのコレクションから異なる区別スキル事前(つまり振る舞い優先)のライブラリを学び、それらを組み合わせて新しいタスクを解決する方法を学ぶ。
この定式化により、アルゴリズムは、下流タスクでより再利用可能な一連の専門的なスキルプリエントを取得することができるが、これらの非構造化スキルプリエントを効果的に組み合わせて、新しいタスクのための新しいプリエントを形成する方法に関する追加の課題をもたらす。
具体的には、エージェントがどのスキルプリエントを使用するかを特定するだけでなく、新しいプリエントを形成するためにそれらを(シーケンシャルまたはコンカレントに)組み合わせる方法も必要である。
この目標を達成するために、aspireにはawm(adaptive weight module)が含まれており、異なるスキルプリエント間の適応的なウェイト割り当てを推論し、重み付きkullback-leiblerダイバージェンスを介して下流タスクのポリシー学習をガイドする。
実験の結果,aspireは複数の先行課題が存在する場合,新しい下流タスクの学習を著しく促進し,競合ベースラインにおける改善を示すことができた。
関連論文リスト
- LW2G: Learning Whether to Grow for Prompt-based Continual Learning [15.766350352592331]
最近のPrompt-based Continual Learning (PCL) は、事前学習モデル(PTM)による顕著なパフォーマンスを実現している。
我々は,タスク間の相違に基づいて,成長するかどうか (LW2G) をtextbfLearn Wearn に送信するプラグインモジュールを提案する。
グラディエント・プロジェクションの継続学習にインスパイアされたLW2Gは、Hinder Forward Capability(HFC)と呼ばれるメトリクスを開発し、新しいタスクの学習に課される障害を測定する。
論文 参考訳(メタデータ) (2024-09-27T15:55:13Z) - Self-paced Weight Consolidation for Continual Learning [39.27729549041708]
連続学習アルゴリズムは、逐次的なタスク学習設定における破滅的な忘れ込みを防ぐのに人気がある。
継続学習を実現するために,自己ペーストウェイト統合(spWC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T13:07:41Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Improving Feature Generalizability with Multitask Learning in Class
Incremental Learning [12.632121107536843]
キーワードスポッティングのような多くのディープラーニングアプリケーションは、クラスインクリメンタルラーニング(CIL)と呼ばれる新しい概念(クラス)を時間とともに組み込む必要がある。
CILの最大の課題は、破滅的な忘れ、すなわち、新しいタスクを学習しながら可能な限り多くの古い知識を保存することである。
本稿では,基本モデルトレーニング中のマルチタスク学習による特徴一般化性の向上を提案する。
提案手法は,平均漸進的学習精度を最大5.5%向上させ,時間とともにより信頼性が高く正確なキーワードスポッティングを可能にする。
論文 参考訳(メタデータ) (2022-04-26T07:47:54Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Accelerating Reinforcement Learning with Learned Skill Priors [20.268358783821487]
現代の強化学習アプローチは、すべてのタスクをゼロから学習する。
事前知識を活用する1つのアプローチは、事前タスクで学んだスキルを新しいタスクに移すことである。
学習したスキル事前は、リッチデータセットからの効果的なスキル伝達に不可欠であることを示す。
論文 参考訳(メタデータ) (2020-10-22T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。