Fugu-MT 論文翻訳(概要): Rethinking Quadratic Regularizers: Explicit Movement Regularization for Continual Learning

論文の概要: Rethinking Quadratic Regularizers: Explicit Movement Regularization for Continual Learning

arxiv url: http://arxiv.org/abs/2102.02805v1
Date: Thu, 4 Feb 2021 18:55:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 16:18:49.869078
Title: Rethinking Quadratic Regularizers: Explicit Movement Regularization for Continual Learning
Title（参考訳）: 二次正規化の再考: 連続学習のための説明運動正規化
Authors: Ekdeep Singh Lubana, Puja Trivedi, Robert P. Dick
Abstract要約: 二次正則化器は、ディープニューラルネットワーク(DNN)における破滅的忘れを緩和するためにしばしば用いられるモデルパラメータの現在の値と以前の値の間の重み付け平均を暗黙的に実行することにより、過去のタスクの忘れを防止する。重み付き平均化の依存性を取り除くために2次正規化を修正した連続学習アルゴリズムである明示的運動規則化(EMR)を提案する。
参考スコア（独自算出の注目度）: 3.885779089924737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quadratic regularizers are often used for mitigating catastrophic forgetting in deep neural networks (DNNs), but are unable to compete with recent continual learning methods. To understand this behavior, we analyze parameter updates under quadratic regularization and demonstrate such regularizers prevent forgetting of past tasks by implicitly performing a weighted average between current and previous values of model parameters. Our analysis shows the inferior performance of quadratic regularizers arises from (a) dependence of weighted averaging on training hyperparameters, which often results in unstable training and (b) assignment of lower importance to deeper layers, which are generally the cause for forgetting in DNNs. To address these limitations, we propose Explicit Movement Regularization (EMR), a continual learning algorithm that modifies quadratic regularization to remove the dependence of weighted averaging on training hyperparameters and uses a relative measure for importance to avoid problems caused by lower importance assignment to deeper layers. Compared to quadratic regularization, EMR achieves 6.2% higher average accuracy and 4.5% lower average forgetting.
Abstract（参考訳）: 二次正則化器は、深層ニューラルネットワーク(dnn)における破滅的な忘れることの軽減によく用いられるが、最近の連続学習法と競合することができない。本研究では,2次正規化の下でのパラメータ更新を解析し,モデルパラメータの現在の値と過去の値の重み付け平均を暗黙的に実行することにより,過去のタスクを忘れないようにする。解析の結果, 2次正則化器の性能は, (a) 重み付き平均値のトレーニングハイパーパラメータ依存性から生じており, しばしば不安定なトレーニングとなり, (b) 深い層への重要性が低下する傾向がみられた。そこで本研究では,重み付き平均化の学習ハイパーパラメータへの依存性を取り除き,より深い層への重要度の低い割り当てによる問題を回避するために相対的尺度を用いた,二次正規化を改良した連続学習アルゴリズムemrを提案する。 2次正規化と比較して、EMRは6.2%高い平均精度と4.5%低い平均忘れを達成する。

関連論文リスト

Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization [12.58055746943097]
我々は、勾配降下の一般化性能を包括的に理解するには、これらの様々な形態の暗黙正則化の間の相互作用を分析する必要があると論じる。単純な回帰タスクで訓練された対角線ネットワークに対して、暗黙バイアスだけでは一般化誤差を最小化しないことを示す。
論文参考訳（メタデータ） (2025-05-27T16:51:06Z)
Variational Deep Learning via Implicit Regularization [20.449095674026363]
最適化手法を用いて,変分深度ネットワークを暗黙的に正規化する方法を示す。過度にパラメータ化された線形モデルの場合、勾配降下の帰納バイアスを完全に特徴づける。
論文参考訳（メタデータ） (2025-05-26T17:15:57Z)
Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文参考訳（メタデータ） (2025-04-09T17:59:42Z)
Non-Asymptotic Uncertainty Quantification in High-Dimensional Learning [5.318766629972959]
不確かさの定量化は多くの高次元回帰や学習問題において決定的だが難しい課題である。我々は、古典的回帰アプローチとニューラルネットワークの両方に適用可能な、回帰におけるUQのための新しいデータ駆動アプローチを開発した。
論文参考訳（メタデータ） (2024-07-18T16:42:10Z)
A Statistical Theory of Regularization-Based Continual Learning [10.899175512941053]
線形回帰タスクの順序に基づく正規化に基づく連続学習の統計的解析を行う。まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。理論解析の副産物は、早期停止と一般化された$ell$-regularizationの等価性である。
論文参考訳（メタデータ） (2024-06-10T12:25:13Z)
Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文参考訳（メタデータ） (2024-03-09T19:56:40Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
Automating Control of Overestimation Bias for Continuous Reinforcement Learning [65.63607016094305]
バイアス補正を導くためのデータ駆動型手法を提案する。我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsにおいて、その効果を実証する。
論文参考訳（メタデータ） (2021-10-26T09:27:12Z)
Precise Statistical Analysis of Classification Accuracies for Adversarial Training [43.25761725062367]
この問題を治療するために、近年、様々な敵の訓練手順が提案されている。我々は,逆向きに訓練されたミニマックスモデルの標準とロバストな精度を正確に評価する。
論文参考訳（メタデータ） (2020-10-21T18:00:53Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Understanding and Mitigating the Tradeoff Between Robustness and Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文参考訳（メタデータ） (2020-02-25T08:03:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。