論文の概要: Continual Learning With Quasi-Newton Methods
- arxiv url: http://arxiv.org/abs/2503.19939v1
- Date: Tue, 25 Mar 2025 07:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 19:18:46.939394
- Title: Continual Learning With Quasi-Newton Methods
- Title(参考訳): 準ニュートン法による連続学習
- Authors: Steven Vander Eeckt, Hugo Van hamme,
- Abstract要約: ニューラルネットワークがタスクを逐次学習する場合、破滅的な忘れは依然として大きな課題だ。
EWCは、ベイズにインスパイアされた正規化損失を導入して、以前に学習したタスクの知識を保存することでこの問題に対処しようとしている。
EWCは、非相関モデルパラメータを仮定して、ヘッセンをフィッシャー情報行列の対角線に単純化するラプラス近似に依存する。
我々は,より正確なヘッセン近似を計算するために,疑似ニュートン法を利用するSmpled Quasi-Newton (CSQN) を用いた連続学習を導入する。
- 参考スコア(独自算出の注目度): 12.55972766570669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting remains a major challenge when neural networks learn tasks sequentially. Elastic Weight Consolidation (EWC) attempts to address this problem by introducing a Bayesian-inspired regularization loss to preserve knowledge of previously learned tasks. However, EWC relies on a Laplace approximation where the Hessian is simplified to the diagonal of the Fisher information matrix, assuming uncorrelated model parameters. This overly simplistic assumption often leads to poor Hessian estimates, limiting its effectiveness. To overcome this limitation, we introduce Continual Learning with Sampled Quasi-Newton (CSQN), which leverages Quasi-Newton methods to compute more accurate Hessian approximations. CSQN captures parameter interactions beyond the diagonal without requiring architecture-specific modifications, making it applicable across diverse tasks and architectures. Experimental results across four benchmarks demonstrate that CSQN consistently outperforms EWC and other state-of-the-art baselines, including rehearsal-based methods. CSQN reduces EWC's forgetting by 50 percent and improves its performance by 8 percent on average. Notably, CSQN achieves superior results on three out of four benchmarks, including the most challenging scenarios, highlighting its potential as a robust solution for continual learning.
- Abstract(参考訳): ニューラルネットワークがタスクを逐次学習する場合、破滅的な忘れは依然として大きな課題だ。
EWC(Elastic Weight Consolidation)は、ベイズにインスパイアされた正規化損失を導入して、以前に学習したタスクの知識を保存することでこの問題に対処しようとするものである。
しかし、EWCは非相関モデルパラメータを仮定して、ヘッセンをフィッシャー情報行列の対角線に単純化するラプラス近似に依存している。
この過度に単純化された仮定は、しばしばヘッセン予想の弱さを招き、その効果を制限している。
この制限を克服するために,Smpled Quasi-Newton (CSQN) を用いた連続学習を導入する。
CSQNは、アーキテクチャ固有の変更を必要とせずに、対角線を越えてパラメータの相互作用をキャプチャし、様々なタスクやアーキテクチャに適用できる。
4つのベンチマークによる実験結果から、CSQNはリハーサルベースの手法を含む、EWCや他の最先端のベースラインを一貫して上回っていることが示された。
CSQNはEWCの忘れを50%減らし、パフォーマンスを平均で8%改善する。
特に、CSQNは、4つのベンチマークのうち3つにおいて、最も難しいシナリオを含む優れた結果を達成し、継続的な学習のための堅牢なソリューションとしての可能性を強調している。
関連論文リスト
- A Case Study of Selected PTQ Baselines for Reasoning LLMs on Ascend NPU [7.030422837091069]
トレーニング後の量子化(PTQ)は、Ascend NPU上での効率的なモデル展開に不可欠である。
本稿では,DeepSeek-R1-Distill-Qwenシリーズ(1.5B/7B/14B)やQwQ-32Bといった推論指向モデルに適用したPTQベースラインのケーススタディを示す。
AWQ、GPTQ、SmoothQuant、FlatQuantの4つの異なるアルゴリズムを評価し、重量のみの圧縮から高度な回転法までの範囲をカバーする。
論文 参考訳(メタデータ) (2026-02-06T09:22:09Z) - Lipschitz Multiscale Deep Equilibrium Models: A Theoretically Guaranteed and Accelerated Approach [10.914558012458423]
ディープ均衡モデル(DEQ)は、ニューラルネットワークにおける層変換の固定点を探索することによって、層を積み重ねることなく無限に深いネットワーク表現を実現する。
DEQは、従来の方法よりも、トレーニングと推論にはるかに多くの計算時間を必要とするという課題に直面している。
本研究では,固定点収束を改良し,計算時間を短縮する手法について検討した。
論文 参考訳(メタデータ) (2026-02-03T09:22:56Z) - What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - Sat-EnQ: Satisficing Ensembles of Weak Q-Learners for Reliable and Compute-Efficient Reinforcement Learning [0.0]
Sat-EnQは、アグレッシブに最適化する前に、十分に良いことを学習するフレームワークです。
フェーズ1では、初期価値成長を制限する満足度の高い目標の下で、軽量Qネットワークのアンサンブルをトレーニングします。
フェーズ2では、アンサンブルはより大きなネットワークに蒸留され、標準のダブルDQNで微調整される。
論文 参考訳(メタデータ) (2025-12-28T12:41:09Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Large Language Models Can Help Mitigate Barren Plateaus [2.384873896423002]
量子ニューラルネットワーク(QNN)は様々な応用に期待できるアプローチとして登場したが、そのトレーニングはバレンプラトー(BP)によって妨げられていることが多い。
我々は,QNNの最適初期パラメータを反復的に探索し,勾配分散を最大化し,BPを緩和する新しいLarge Language Model (LLM) 型検索フレームワークであるAdaInitを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:57:15Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。
VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文 参考訳(メタデータ) (2024-08-13T00:34:33Z) - Sequential Hamiltonian Assembly: Enhancing the training of combinatorial optimization problems on quantum computers [4.385485960663339]
量子機械学習における中心的な課題は、パラメータ化量子回路(PQC)の設計と訓練である。
深層学習と同様に、勾配の消失は様々な情報源から生じるPQCの訓練性に大きな障害をもたらす。
本稿では、この問題に対処し、大域的損失関数を用いた量子アプリケーションのためのパラメータトレーニングを容易にするために、逐次ハミルトンアセンブリ(SHA)を提案する。
論文 参考訳(メタデータ) (2024-08-08T20:32:18Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Training Quantised Neural Networks with STE Variants: the Additive Noise
Annealing Algorithm [16.340620299847384]
量子化されたニューラルネットワーク(QNN)のトレーニングは、重みと特徴が断片的な定数関数によって出力されるため、微分不可能な問題である。
標準的な解決策は、推論と計算のステップで異なる関数を使用するストレートスルー推定器(STE)を適用することである。
トレーニングネットワークのタスク精度を最大化することを目的とした、いくつかのSTE変種が文献で提案されている。
論文 参考訳(メタデータ) (2022-03-21T20:14:27Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。