論文の概要: Optimization and Generalization of Regularization-Based Continual
Learning: a Loss Approximation Viewpoint
- arxiv url: http://arxiv.org/abs/2006.10974v3
- Date: Mon, 8 Feb 2021 23:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-19 03:47:58.170796
- Title: Optimization and Generalization of Regularization-Based Continual
Learning: a Loss Approximation Viewpoint
- Title(参考訳): 正規化に基づく連続学習の最適化と一般化:損失近似的視点
- Authors: Dong Yin, Mehrdad Farajtabar, Ang Li, Nir Levine, Alex Mott
- Abstract要約: 各タスクの損失関数の2階Taylor近似として定式化することにより、正規化に基づく連続学習の新しい視点を提供する。
この観点から、正規化に基づく連続学習の最適化側面(収束)と一般化特性(有限サンプル保証)を考察する。
- 参考スコア(独自算出の注目度): 35.5156045701898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks have achieved remarkable success in many cognitive tasks.
However, when they are trained sequentially on multiple tasks without access to
old data, their performance on early tasks tend to drop significantly. This
problem is often referred to as catastrophic forgetting, a key challenge in
continual learning of neural networks. The regularization-based approach is one
of the primary classes of methods to alleviate catastrophic forgetting. In this
paper, we provide a novel viewpoint of regularization-based continual learning
by formulating it as a second-order Taylor approximation of the loss function
of each task. This viewpoint leads to a unified framework that can be
instantiated to derive many existing algorithms such as Elastic Weight
Consolidation and Kronecker factored Laplace approximation. Based on this
viewpoint, we study the optimization aspects (i.e., convergence) as well as
generalization properties (i.e., finite-sample guarantees) of
regularization-based continual learning. Our theoretical results indicate the
importance of accurate approximation of the Hessian matrix. The experimental
results on several benchmarks provide empirical validation of our theoretical
findings.
- Abstract(参考訳): ニューラルネットワークは多くの認知タスクで顕著な成功を収めた。
しかし、古いデータにアクセスせずに複数のタスクを逐次訓練すると、初期のタスクのパフォーマンスは大幅に低下する傾向にある。
この問題は、ニューラルネットワークの継続的な学習において鍵となる課題である、破滅的な忘れ物と呼ばれることが多い。
正規化に基づくアプローチは、壊滅的な忘れを緩和する主要な手法の1つである。
本稿では,各タスクの損失関数の2次テイラー近似として定式化することで,正規化に基づく連続学習の新たな視点を提供する。
この視点は、弾性重み和法やクロネッカー分解ラプラス近似のような多くの既存のアルゴリズムを引き出すためにインスタンス化できる統一フレームワークへと繋がる。
この観点から,正規化に基づく連続学習の最適化面(収束)と一般化特性(有限サンプル保証)について検討する。
理論的結果はヘッセン行列の正確な近似の重要性を示している。
いくつかのベンチマーク実験の結果から, 理論的知見の実証的検証が得られた。
関連論文リスト
- Understanding the Role of Rehearsal Scale in Continual Learning under Varying Model Capacities [11.882528379148141]
リハーサルに基づく連続学習を多次元実効性駆動型反復最適化問題として定式化する。
我々は、リハーサルスケールの観点から、適応性、記憶可能性、一般化のクローズドフォーム分析を導出する。
複数の実世界のデータセットにまたがるディープニューラルネットワークの数値シミュレーションと拡張解析により,これらの知見を検証した。
論文 参考訳(メタデータ) (2026-02-24T11:29:12Z) - Is Softmax Loss All You Need? A Principled Analysis of Softmax-family Loss [91.61796429377041]
ソフトマックスの損失は、分類とランキングのタスクにおいて最も広く使用されるサロゲートの目標の1つである。
本研究では,異なるサロゲートが分類とランキングの指標との整合性を達成するかどうかを考察し,それらの勾配ダイナミクスを分析して,異なる収束挙動を明らかにする。
本研究は,大規模機械学習アプリケーションにおける損失選択の実践的ガイダンスとして,原則的基礎を確立した。
論文 参考訳(メタデータ) (2026-01-30T09:24:52Z) - Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。
本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。
我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文 参考訳(メタデータ) (2025-12-01T15:56:00Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。
一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文 参考訳(メタデータ) (2025-03-24T10:06:07Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。
大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。
また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-04T23:31:35Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Distributed Continual Learning with CoCoA in High-dimensional Linear
Regression [0.0]
興味の信号が時間とともに特性の変化を示すシナリオで推定する。
特に、異なる分布を持つデータなど、異なるタスクが順次到着する連続的な学習問題を考察する。
ネットワーク上でモデルパラメータと対応する特徴を分散する分散学習アルゴリズムCOCOAについて検討する。
論文 参考訳(メタデータ) (2023-12-04T10:35:46Z) - Regularization, early-stopping and dreaming: a Hopfield-like setup to
address generalization and overfitting [0.0]
正規化損失関数に勾配降下を適用し,最適ネットワークパラメータを求める。
この枠組みの中で、最適なニューロン相互作用行列は、繰り返し学習プロトコルによって修正されたヘビアン核に対応する。
論文 参考訳(メタデータ) (2023-08-01T15:04:30Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Density Fixing: Simple yet Effective Regularization Method based on the
Class Prior [2.3859169601259347]
本稿では,教師付き・半教師付き学習によく用いられる密度固定法という正規化手法の枠組みを提案する。
提案手法は,モデルの事前分布や発生頻度を近似させることで,一般化性能を向上させる。
論文 参考訳(メタデータ) (2020-07-08T04:58:22Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。