論文の概要: Catastrophic Interference in Reinforcement Learning: A Solution Based on
Context Division and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2109.00525v1
- Date: Wed, 1 Sep 2021 12:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:08:51.968258
- Title: Catastrophic Interference in Reinforcement Learning: A Solution Based on
Context Division and Knowledge Distillation
- Title(参考訳): 強化学習における壊滅的干渉--文脈分割と知識蒸留に基づく解法
- Authors: Tiantian Zhang, Xueqian Wang, Bin Liang, Bo Yuan
- Abstract要約: コンテクスト」の概念をシングルタスク強化学習に導入する。
我々は、コンテキスト分割と知識蒸留駆動RLと呼ばれる新しいスキームを開発する。
以上の結果から,CDaKDはメモリ容量の変動により,既存のRLアルゴリズムの性能を継続的に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 8.044847478961882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The powerful learning ability of deep neural networks enables reinforcement
learning (RL) agents to learn competent control policies directly from
high-dimensional and continuous environments. In theory, to achieve stable
performance, neural networks assume i.i.d. inputs, which unfortunately does no
hold in the general RL paradigm where the training data is temporally
correlated and non-stationary. This issue may lead to the phenomenon of
"catastrophic interference" and the collapse in performance as later training
is likely to overwrite and interfer with previously learned policies. In this
paper, we introduce the concept of "context" into single-task RL and develop a
novel scheme, termed as Context Division and Knowledge Distillation (CDaKD)
driven RL, to divide all states experienced during training into a series of
contexts. Its motivation is to mitigate the challenge of aforementioned
catastrophic interference in deep RL, thereby improving the stability and
plasticity of RL models. At the heart of CDaKD is a value function,
parameterized by a neural network feature extractor shared across all contexts,
and a set of output heads, each specializing on an individual context. In
CDaKD, we exploit online clustering to achieve context division, and
interference is further alleviated by a knowledge distillation regularization
term on the output layers for learned contexts. In addition, to effectively
obtain the context division in high-dimensional state spaces (e.g., image
inputs), we perform clustering in the lower-dimensional representation space of
a randomly initialized convolutional encoder, which is fixed throughout
training. Our results show that, with various replay memory capacities, CDaKD
can consistently improve the performance of existing RL algorithms on classic
OpenAI Gym tasks and the more complex high-dimensional Atari tasks, incurring
only moderate computational overhead.
- Abstract(参考訳): ディープニューラルネットワークの強力な学習能力により、強化学習(RL)エージェントは高次元および連続した環境から直接有能な制御ポリシーを学習することができる。
理論上、安定した性能を達成するために、ニューラルネットワークはi.d.を仮定する。
入力は残念ながら、トレーニングデータが一時的な相関と非定常である一般的なrlパラダイムには当てはまらない。
この問題は、"破滅的な干渉"という現象や、後のトレーニングが以前学んだ方針を上書きし干渉する可能性が高く、パフォーマンスの崩壊に繋がる可能性がある。
本稿では,「コンテキスト」の概念を単一タスクRLに導入し,文脈分割・知識蒸留(CDaKD)駆動RLと呼ばれる新しいスキームを開発し,トレーニング中に経験した全ての状態を一連のコンテキストに分割する。
その動機は、前述の深いRLにおける破滅的干渉を緩和し、RLモデルの安定性と可塑性を改善することである。
CDaKDの中心には、すべてのコンテキストで共有されるニューラルネットワーク特徴抽出器によってパラメータ化される値関数と、それぞれ個別のコンテキストを専門とする出力ヘッドのセットがある。
cdakdでは,オンラインクラスタリングを利用してコンテキスト分割を行い,学習コンテキストの出力層に対する知識蒸留正規化項により干渉を緩和する。
また、高次元状態空間(例えば画像入力)におけるコンテキスト分割を効果的に得るために、トレーニングを通じて固定されるランダム初期化畳み込みエンコーダの下次元表現空間におけるクラスタリングを行う。
この結果から,従来のOpenAI Gymタスクや,より複雑な高次元のAtariタスクにおいて,CDaKDが既存のRLアルゴリズムの性能を継続的に向上できることを示す。
関連論文リスト
- The RL Perceptron: Generalisation Dynamics of Policy Learning in High
Dimensions [14.778024171498208]
強化学習アルゴリズムは、様々な領域において変形的であることが証明されている。
RLの多くの理論は、離散状態空間や最悪のケース解析に焦点を当てている。
本稿では,様々な学習プロトコルを捉えることができるRLの高次元解像モデルを提案する。
論文 参考訳(メタデータ) (2023-06-17T18:16:51Z) - CoDeC: Communication-Efficient Decentralized Continual Learning [6.663641564969944]
エッジでのトレーニングは、異なる場所で生成された継続的な進化データを活用する。
プライバシーに関する懸念は、空間的にも時間的に分散したデータにおいても、このコロケーションを禁止している。
通信効率の高い分散型連続学習アルゴリズムであるCoDeCを提案する。
論文 参考訳(メタデータ) (2023-03-27T16:52:17Z) - Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。