論文の概要: Parseval Regularization for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.07224v1
- Date: Tue, 10 Dec 2024 06:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:41.742347
- Title: Parseval Regularization for Continual Reinforcement Learning
- Title(参考訳): 継続的強化学習のためのParseval正規化
- Authors: Wesley Chung, Lynn Cherif, David Meger, Doina Precup,
- Abstract要約: 可塑性の喪失、トレーニング可能性の喪失、プライマリーバイアスは、タスクのシーケンスでディープニューラルネットワークをトレーニングする際に生じる問題として特定されている。
本稿では、Parseval正規化を用いて、有用な最適化特性を保ち、継続的な強化学習環境でのトレーニングを改善することを提案する。
- 参考スコア(独自算出の注目度): 46.92116826808205
- License:
- Abstract: Loss of plasticity, trainability loss, and primacy bias have been identified as issues arising when training deep neural networks on sequences of tasks -- all referring to the increased difficulty in training on new tasks. We propose to use Parseval regularization, which maintains orthogonality of weight matrices, to preserve useful optimization properties and improve training in a continual reinforcement learning setting. We show that it provides significant benefits to RL agents on a suite of gridworld, CARL and MetaWorld tasks. We conduct comprehensive ablations to identify the source of its benefits and investigate the effect of certain metrics associated to network trainability including weight matrix rank, weight norms and policy entropy.
- Abstract(参考訳): 可塑性の喪失、トレーニング可能性の喪失、およびプライマリーバイアスは、タスクのシーケンスでディープニューラルネットワークをトレーニングする際に発生する問題として認識されている。
重み行列の直交性を維持するParseval正則化を用いて、有用な最適化特性を維持し、連続的な強化学習環境でのトレーニングを改善することを提案する。
グリッドワールド, CARL, MetaWorld タスクのスイートにおいて, RL エージェントに対して大きなメリットがあることを示す。
我々は、その利点の出所を特定し、ウェイトマトリックスランク、ウェイトノルム、ポリシーエントロピーなど、ネットワークトレーサビリティに関連する特定の指標の効果を調査する。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - Learning Continually by Spectral Regularization [45.55508032009977]
連続学習アルゴリズムは、ネットワークのトレーニング性を維持しながら、良好な性能を維持することにより、可塑性の損失を軽減する。
我々は,初期化時のニューラルネットワークパラメータの特異値が学習の初期段階におけるトレーニング容易性の重要な要因であることから着想を得た,継続学習を改善するための新しい手法を開発した。
提案するスペクトル正規化器は,連続的な教師付きおよび強化学習環境において,様々なモデルアーキテクチャの訓練性と性能を維持可能であることを示す実験的検討を行った。
論文 参考訳(メタデータ) (2024-06-10T21:34:43Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Understanding and Preventing Capacity Loss in Reinforcement Learning [28.52122927103544]
我々は、非定常予測対象が深層RLエージェントの学習進行を阻止できるメカニズムを同定する。
キャパシティ損失は様々なRLエージェントや環境で発生し、特にスパース・リワードタスクのパフォーマンスにダメージを与えている。
論文 参考訳(メタデータ) (2022-04-20T15:55:15Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Data-driven Regularization via Racecar Training for Generalizing Neural
Networks [28.08782668165276]
ニューラルネットワークの一般化を改善するための新しいトレーニング手法を提案する。
逆パスによる実践的なネットワークアーキテクチャにおいて,私たちの定式化が容易に実現可能であることを示す。
提案手法で学習したネットワークは,すべての層で入力と出力のバランスが良くなり,説明性が向上し,各種タスクやタスク転送の性能が向上した。
論文 参考訳(メタデータ) (2020-06-30T18:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。