論文の概要: Weight Clipping for Deep Continual and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.01704v1
- Date: Mon, 1 Jul 2024 18:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:32:46.353373
- Title: Weight Clipping for Deep Continual and Reinforcement Learning
- Title(参考訳): Deep Continual and Reinforcement Learningのためのウェイトクリッピング
- Authors: Mohamed Elsayed, Qingfeng Lan, Clare Lyle, A. Rupam Mahmood,
- Abstract要約: 深い連続学習と強化学習における多くの失敗は、重量の増大と関連している。
既存の学習システムに簡単に追加できる手法として,ニューラルネットワークの重みをクリップして特定の範囲に制限する手法を提案する。
- 参考スコア(独自算出の注目度): 11.429100569173514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many failures in deep continual and reinforcement learning are associated with increasing magnitudes of the weights, making them hard to change and potentially causing overfitting. While many methods address these learning failures, they often change the optimizer or the architecture, a complexity that hinders widespread adoption in various systems. In this paper, we focus on learning failures that are associated with increasing weight norm and we propose a simple technique that can be easily added on top of existing learning systems: clipping neural network weights to limit them to a specific range. We study the effectiveness of weight clipping in a series of supervised and reinforcement learning experiments. Our empirical results highlight the benefits of weight clipping for generalization, addressing loss of plasticity and policy collapse, and facilitating learning with a large replay ratio.
- Abstract(参考訳): 深い連続学習と強化学習における多くの失敗は、重量の大きさの増大と関連しており、変更が難しく、過度な適合を引き起こす可能性がある。
多くの手法がこれらの学習障害に対処する一方で、様々なシステムで広く採用されるのを妨げる複雑さであるオプティマイザやアーキテクチャを変更することが多い。
本稿では,ウェイトノルムの増加に伴う学習障害に着目し,既存の学習システム上に簡単に追加できる簡単な手法を提案する。
教師付きおよび強化学習実験における重量切り抜きの有効性について検討した。
実験の結果は, 一般化のための重量切り抜きの利点, 可塑性の喪失, 政策崩壊への対処, およびリプレイ率の大きな学習の促進を浮き彫りにした。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Maintaining Plasticity in Deep Continual Learning [12.27972591521307]
連続学習のためのデータセットをタスクのシーケンスとして利用して,可塑性損失の実証を行う。
ImageNetでは、バイナリ分類のパフォーマンスは、初期タスクで89%の精度から77%に低下した。
新しいアルゴリズム -- 連続的なバックプロパゲーション -- は、従来のバックプロパゲーションを変更して、各例の後で、あまり使われていないユニットを再使用する。
論文 参考訳(メタデータ) (2023-06-23T23:19:21Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - Deep Reinforcement Learning for Multi-class Imbalanced Training [64.9100301614621]
我々は、極めて不均衡なデータセットをトレーニングするために、強化学習に基づく不均衡な分類フレームワークを導入する。
特注報酬関数とエピソード学習手順を定式化し、特にマルチクラス不均衡トレーニングを扱えるようにした。
実世界の臨床ケーススタディを用いて,提案手法が現状の非バランス学習法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T13:39:59Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Learning where to learn: Gradient sparsity in meta and continual
learning [4.845285139609619]
学習アルゴリズムがどの重みを変えるかを決定することによって、メタ学習を改善することができることを示す。
このプロセスからパターン化されたスパーシリティが出現し、そのパターンは問題ごとの確率に基づいて変化する。
その結果、メタ学習が適応可能な特徴を発見できるかどうかの議論が進行中であり、疎勾配降下による学習がメタ学習システムにとって強力な帰納的バイアスであることを示唆している。
論文 参考訳(メタデータ) (2021-10-27T12:54:36Z) - Rethinking Deep Contrastive Learning with Embedding Memory [58.66613563148031]
ペアワイズ損失関数は広く研究され、dml(deep metric learning)のパフォーマンスを継続的に改善することが示されている。
本稿では,様々な対損失関数の重み付け戦略を体系的に研究する新しい手法を提案し,組重み付けを埋め込みメモリで再考する。
論文 参考訳(メタデータ) (2021-03-25T17:39:34Z) - Essentials for Class Incremental Learning [43.306374557919646]
CIFAR-100とImageNetのクラスインクリメンタルな学習結果は、アプローチをシンプルに保ちながら、最先端の成果を大きなマージンで改善します。
論文 参考訳(メタデータ) (2021-02-18T18:01:06Z) - Improving Performance in Reinforcement Learning by Breaking
Generalization in Neural Networks [5.273501657421096]
オンラインNNトレーニングと干渉が強化学習においてどのように相互作用するかを示す。
入力を高次元空間に再マッピングするだけで学習速度とパラメータ感度が向上することがわかった。
NNトレーニングに簡単なアプローチを提供し、実装が容易で、追加の計算をほとんど必要としない。
論文 参考訳(メタデータ) (2020-03-16T19:21:08Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。