論文の概要: Continual Learning With Quasi-Newton Methods
- arxiv url: http://arxiv.org/abs/2503.19939v1
- Date: Tue, 25 Mar 2025 07:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:45.943001
- Title: Continual Learning With Quasi-Newton Methods
- Title(参考訳): 準ニュートン法による連続学習
- Authors: Steven Vander Eeckt, Hugo Van hamme,
- Abstract要約: ニューラルネットワークがタスクを逐次学習する場合、破滅的な忘れは依然として大きな課題だ。
EWCは、ベイズにインスパイアされた正規化損失を導入して、以前に学習したタスクの知識を保存することでこの問題に対処しようとしている。
EWCは、非相関モデルパラメータを仮定して、ヘッセンをフィッシャー情報行列の対角線に単純化するラプラス近似に依存する。
我々は,より正確なヘッセン近似を計算するために,疑似ニュートン法を利用するSmpled Quasi-Newton (CSQN) を用いた連続学習を導入する。
- 参考スコア(独自算出の注目度): 12.55972766570669
- License:
- Abstract: Catastrophic forgetting remains a major challenge when neural networks learn tasks sequentially. Elastic Weight Consolidation (EWC) attempts to address this problem by introducing a Bayesian-inspired regularization loss to preserve knowledge of previously learned tasks. However, EWC relies on a Laplace approximation where the Hessian is simplified to the diagonal of the Fisher information matrix, assuming uncorrelated model parameters. This overly simplistic assumption often leads to poor Hessian estimates, limiting its effectiveness. To overcome this limitation, we introduce Continual Learning with Sampled Quasi-Newton (CSQN), which leverages Quasi-Newton methods to compute more accurate Hessian approximations. CSQN captures parameter interactions beyond the diagonal without requiring architecture-specific modifications, making it applicable across diverse tasks and architectures. Experimental results across four benchmarks demonstrate that CSQN consistently outperforms EWC and other state-of-the-art baselines, including rehearsal-based methods. CSQN reduces EWC's forgetting by 50 percent and improves its performance by 8 percent on average. Notably, CSQN achieves superior results on three out of four benchmarks, including the most challenging scenarios, highlighting its potential as a robust solution for continual learning.
- Abstract(参考訳): ニューラルネットワークがタスクを逐次学習する場合、破滅的な忘れは依然として大きな課題だ。
EWC(Elastic Weight Consolidation)は、ベイズにインスパイアされた正規化損失を導入して、以前に学習したタスクの知識を保存することでこの問題に対処しようとするものである。
しかし、EWCは非相関モデルパラメータを仮定して、ヘッセンをフィッシャー情報行列の対角線に単純化するラプラス近似に依存している。
この過度に単純化された仮定は、しばしばヘッセン予想の弱さを招き、その効果を制限している。
この制限を克服するために,Smpled Quasi-Newton (CSQN) を用いた連続学習を導入する。
CSQNは、アーキテクチャ固有の変更を必要とせずに、対角線を越えてパラメータの相互作用をキャプチャし、様々なタスクやアーキテクチャに適用できる。
4つのベンチマークによる実験結果から、CSQNはリハーサルベースの手法を含む、EWCや他の最先端のベースラインを一貫して上回っていることが示された。
CSQNはEWCの忘れを50%減らし、パフォーマンスを平均で8%改善する。
特に、CSQNは、4つのベンチマークのうち3つにおいて、最も難しいシナリオを含む優れた結果を達成し、継続的な学習のための堅牢なソリューションとしての可能性を強調している。
関連論文リスト
- Large Language Models Can Help Mitigate Barren Plateaus [2.384873896423002]
量子ニューラルネットワーク(QNN)は様々な応用に期待できるアプローチとして登場したが、そのトレーニングはバレンプラトー(BP)によって妨げられていることが多い。
我々は,QNNの最適初期パラメータを反復的に探索し,勾配分散を最大化し,BPを緩和する新しいLarge Language Model (LLM) 型検索フレームワークであるAdaInitを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:57:15Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。
VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文 参考訳(メタデータ) (2024-08-13T00:34:33Z) - Sequential Hamiltonian Assembly: Enhancing the training of combinatorial optimization problems on quantum computers [4.385485960663339]
量子機械学習における中心的な課題は、パラメータ化量子回路(PQC)の設計と訓練である。
深層学習と同様に、勾配の消失は様々な情報源から生じるPQCの訓練性に大きな障害をもたらす。
本稿では、この問題に対処し、大域的損失関数を用いた量子アプリケーションのためのパラメータトレーニングを容易にするために、逐次ハミルトンアセンブリ(SHA)を提案する。
論文 参考訳(メタデータ) (2024-08-08T20:32:18Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Training Quantised Neural Networks with STE Variants: the Additive Noise
Annealing Algorithm [16.340620299847384]
量子化されたニューラルネットワーク(QNN)のトレーニングは、重みと特徴が断片的な定数関数によって出力されるため、微分不可能な問題である。
標準的な解決策は、推論と計算のステップで異なる関数を使用するストレートスルー推定器(STE)を適用することである。
トレーニングネットワークのタスク精度を最大化することを目的とした、いくつかのSTE変種が文献で提案されている。
論文 参考訳(メタデータ) (2022-03-21T20:14:27Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。