論文の概要: Disentangling Transfer in Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.13900v1
- Date: Wed, 28 Sep 2022 08:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:40:11.159113
- Title: Disentangling Transfer in Continual Reinforcement Learning
- Title(参考訳): 連続的強化学習における距離移動
- Authors: Maciej Wo{\l}czyk, Micha{\l} Zaj\k{a}c, Razvan Pascanu, {\L}ukasz
Kuci\'nski, Piotr Mi{\l}o\'s
- Abstract要約: 本研究の目的は, 連続的強化学習における移動とその駆動力の理解を広げることである。
我々は、基礎となるRLアルゴリズムとしてSACを採用し、連続的な制御タスクのスイートとしてContinual Worldを採用した。
ClonEx-SACと呼ばれる最良の選択セットは、最近のContinual Worldベンチマークで評価されている。
- 参考スコア(独自算出の注目度): 17.99322499521751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of continual learning systems to transfer knowledge from
previously seen tasks in order to maximize performance on new tasks is a
significant challenge for the field, limiting the applicability of continual
learning solutions to realistic scenarios. Consequently, this study aims to
broaden our understanding of transfer and its driving forces in the specific
case of continual reinforcement learning. We adopt SAC as the underlying RL
algorithm and Continual World as a suite of continuous control tasks. We
systematically study how different components of SAC (the actor and the critic,
exploration, and data) affect transfer efficacy, and we provide recommendations
regarding various modeling options. The best set of choices, dubbed ClonEx-SAC,
is evaluated on the recent Continual World benchmark. ClonEx-SAC achieves 87%
final success rate compared to 80% of PackNet, the best method in the
benchmark. Moreover, the transfer grows from 0.18 to 0.54 according to the
metric provided by Continual World.
- Abstract(参考訳): 新たなタスクの性能を最大化するために,従来のタスクから知識を伝達する連続学習システムの能力は,現実的なシナリオへの連続学習ソリューションの適用性を制限している。
そこで本研究は,継続強化学習における移動力とその駆動力の理解を深めることを目的としている。
我々は、基礎となるRLアルゴリズムとしてSAC、継続的な制御タスクのスイートとしてContinual Worldを採用します。
我々は,SACの異なる要素(アクター,批評家,探索,データ)が伝達効率にどのように影響するかを体系的に研究し,様々なモデリングオプションについて推奨する。
ClonEx-SACと呼ばれる最良の選択セットは、最近のContinual Worldベンチマークで評価されている。
ClonEx-SACは、ベンチマークで最高のメソッドであるPackNetの80%と比較して87%の最終的な成功率を達成した。
さらに、この移動は連続世界が提供する計量に従って0.18から0.54へと増加する。
関連論文リスト
- Densely Distilling Cumulative Knowledge for Continual Learning [14.343655566551213]
多様なタスクのシーケンシャルなトレーニングを含む継続的な学習は、しばしば破滅的な忘れに直面します。
本稿では,従来の課題の累積知識を抽出するために,Dense Knowledge Distillation (DKD)を提案する。
我々のDKDは、様々なベンチマークやシナリオで最新の最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2024-05-16T05:37:06Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - MIND: Multi-Task Incremental Network Distillation [45.74830585715129]
本研究では,リプレイフリーソリューションの性能向上を目的としたパラメータ分離手法 MIND を提案する。
以上の結果から,MINDの優れた性能は,クラス増分学習やドメイン増分学習によってもたらされる課題に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-12-05T17:46:52Z) - Investigating the Impact of Weight Sharing Decisions on Knowledge
Transfer in Continual Learning [7.25130576615102]
連続学習(CL)は、ニューラルネットワークのシーケンシャルトレーニングにおいて、カタストロフィックフォーッティング(CF)を避ける方法として注目されている。
本稿では,タスク間のフォワード・ナレッジ・トランスファー(FKT)に対して,異なる共有決定がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2023-11-16T02:06:23Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Continual World: A Robotic Benchmark For Continual Reinforcement
Learning [17.77261981963946]
正しいトレードオフを理解することは概念的にも計算的にも困難である、と私たちは主張する。
テストベッドとしてMeta-World上に構築された,現実的で有意義に多様なロボットタスクからなるベンチマークを提案する。
論文 参考訳(メタデータ) (2021-05-23T11:33:04Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。