論文の概要: Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.05066v1
- Date: Fri, 8 Mar 2024 05:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:59:19.002614
- Title: Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual
Reinforcement Learning
- Title(参考訳): リセット・蒸留:継続的な強化学習における負の伝達を克服するレシピ
- Authors: Hongjoon Ahn, Jinu Hyeon, Youngmin Oh, Bosun Hwang, and Taesup Moon
- Abstract要約: 有効な継続強化学習(CRL)アルゴリズムを開発する上での大きな障害の1つは、学習すべき新しいタスクが到着する際の負の伝達問題である。
CRLにおける負の伝達問題を克服するため, 単純かつ高効率なリセット・アンド・ディスティル法(R&D)を開発した。
- 参考スコア(独自算出の注目度): 20.682705447289706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that one of the main obstacles for developing effective Continual
Reinforcement Learning (CRL) algorithms is the negative transfer issue
occurring when the new task to learn arrives. Through comprehensive
experimental validation, we demonstrate that such issue frequently exists in
CRL and cannot be effectively addressed by several recent work on mitigating
plasticity loss of RL agents. To that end, we develop Reset & Distill (R&D), a
simple yet highly effective method, to overcome the negative transfer problem
in CRL. R&D combines a strategy of resetting the agent's online actor and
critic networks to learn a new task and an offline learning step for distilling
the knowledge from the online actor and previous expert's action probabilities.
We carried out extensive experiments on long sequence of Meta-World tasks and
show that our method consistently outperforms recent baselines, achieving
significantly higher success rates across a range of tasks. Our findings
highlight the importance of considering negative transfer in CRL and emphasize
the need for robust strategies like R&D to mitigate its detrimental effects.
- Abstract(参考訳): 有効な継続強化学習(CRL)アルゴリズムを開発する上での大きな障害の1つは、学習すべき新しいタスクが到着したときに生じる負の伝達問題である。
総合的な実験的検証を通じて、このような問題はCRLに頻繁に存在し、RL剤の可塑性損失軽減に関する最近の研究によって効果的に対処できないことを示す。
そこで我々は, CRLにおける負の伝達問題を克服するため, 単純かつ高効率なReset & Distill (R&D) を開発した。
R&Dは、エージェントのオンラインアクターと批評家ネットワークをリセットして新しいタスクを学ぶ戦略と、オンラインアクターと以前の専門家の行動確率から知識を抽出するオフライン学習ステップを組み合わせる。
我々は,Meta-Worldタスクの長いシーケンスに関する広範な実験を行い,本手法が最近のベースラインを一貫して上回り,様々なタスクにおいて成功率を大幅に向上させることを示す。
本研究は,CRLの陰性移行を検討することの重要性を強調し,その有害性を軽減するためにR&Dのような堅牢な戦略の必要性を強調した。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Overcoming Domain Drift in Online Continual Learning [24.86094018430407]
オンライン連続学習(OCL)は、機械学習モデルに一連のタスクで新しい知識をオンラインで取得する権限を与える。
OCLは、破滅的な忘れをし、以前のタスクで学んだモデルは、新しいタスクに遭遇したときに実質的に上書きされる、という大きな課題に直面します。
本稿では,古いタスクのドメインを固定し,負の転送効果を低減するための新しいリハーサル戦略であるDrift-Reducing Rehearsal(DRR)を提案する。
論文 参考訳(メタデータ) (2024-05-15T06:57:18Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Replay-enhanced Continual Reinforcement Learning [37.34722105058351]
本稿では,新しいタスクにおける既存のリプレイ方式の可塑性を大幅に向上させるリプレイ拡張手法であるRECALLを紹介する。
Continual Worldベンチマークの実験では、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-20T06:21:52Z) - Granger Causal Interaction Skill Chains [35.143372688036685]
強化学習(Reinforcement Learning, RL)は複雑なタスクの学習方針において有望な結果を示してきたが、しばしばサンプル効率の低下と限られた伝達性に悩まされる。
このアルゴリズムは、ドメイン内の制御性に着目し、高い制御を許す少数のタスクに依存しないスキルを識別する。
また、一般的なRLベンチマークであるBreakoutの変種を用いて、COInSが学習したスキルの伝達性を実証し、標準のRLベースラインと比較してサンプル効率と最終性能を2~3倍改善したことを示す。
論文 参考訳(メタデータ) (2023-06-15T21:06:54Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Knowledge Transfer in Multi-Task Deep Reinforcement Learning for
Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。
KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。
実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文 参考訳(メタデータ) (2020-10-15T03:26:47Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。