論文の概要: Lifelong Learning with Sketched Structural Regularization
- arxiv url: http://arxiv.org/abs/2104.08604v1
- Date: Sat, 17 Apr 2021 18:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:43:28.947170
- Title: Lifelong Learning with Sketched Structural Regularization
- Title(参考訳): スケッチ構造正規化による生涯学習
- Authors: Haoran Li, Aditya Krishnan, Jingfeng Wu, Soheil Kolouri, Praveen K.
Pilly, Vladimir Braverman
- Abstract要約: 構造正規化 (SR) は、ネットワークを「臨界パラメータ」を変更することで破滅的な忘れを緩和するアルゴリズムのファミリーを指す。
ほとんどのSR法は、その対角線による重要性行列を粗く近似する。
提案手法は,合成実験とベンチマーク連続学習の両方において,様々なSRアルゴリズムの性能を継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 36.86222424065129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preventing catastrophic forgetting while continually learning new tasks is an
essential problem in lifelong learning. Structural regularization (SR) refers
to a family of algorithms that mitigate catastrophic forgetting by penalizing
the network for changing its "critical parameters" from previous tasks while
learning a new one. The penalty is often induced via a quadratic regularizer
defined by an \emph{importance matrix}, e.g., the (empirical) Fisher
information matrix in the Elastic Weight Consolidation framework. In practice
and due to computational constraints, most SR methods crudely approximate the
importance matrix by its diagonal. In this paper, we propose \emph{Sketched
Structural Regularization} (Sketched SR) as an alternative approach to compress
the importance matrices used for regularizing in SR methods. Specifically, we
apply \emph{linear sketching methods} to better approximate the importance
matrices in SR algorithms. We show that sketched SR: (i) is computationally
efficient and straightforward to implement, (ii) provides an approximation
error that is justified in theory, and (iii) is method oblivious by
construction and can be adapted to any method that belongs to the structural
regularization class. We show that our proposed approach consistently improves
various SR algorithms' performance on both synthetic experiments and benchmark
continual learning tasks, including permuted-MNIST and CIFAR-100.
- Abstract(参考訳): 新しいタスクを継続的に学習しながら破滅的な忘れを防ぐことは、生涯学習において不可欠な問題である。
構造正規化 (SR) は、ネットワークを従来のタスクから「クリティカルパラメータ」を変更して新しいタスクを学習することで、破滅的な忘れを緩和するアルゴリズムのファミリーを指す。
このペナルティは、例えばElastic Weight Consolidation frameworkにおける(経験的)フィッシャー情報行列のように、 \emph{importance matrix} で定義される二次正則化器によってしばしば誘導される。
実際には、計算上の制約のため、ほとんどのSR手法は、その対角線による重要性行列を粗く近似する。
本稿では,SR手法の正則化に使用する重要行列を圧縮する代替手法として, \emph{Sketched Structure Regularization} (Sketched SR)を提案する。
具体的には,SRアルゴリズムの重要行列をより正確に近似するために, 'emph{linear sketching method} を適用する。
スケッチされたSR: (i) は計算的に効率的で実装が容易であり, (ii) 理論上正当化された近似誤差を提供し, (iii) 構造正則化クラスに属する任意のメソッドに適用可能であることを示す。
提案手法は,多変量MNISTやCIFAR-100など,合成実験とベンチマーク連続学習の両方において,SRアルゴリズムの性能を継続的に向上することを示す。
関連論文リスト
- Matrix Sketching in Bandits: Current Pitfalls and New Framework [20.496072342424895]
線形バンディット設定では、スケッチベースのアプローチがマトリックススケッチを活用して、時間単位の複雑さを低減する。
共分散行列のスペクトル尾が急速に減少しない場合、線形後悔につながる。
Dyadic Block Sketchingを提案する。Dyadic Block Sketchingは,大域的なスペクトル損失を抑えるために,スケッチサイズを適応的に管理する,革新的なストリーミング行列スケッチ手法である。
論文 参考訳(メタデータ) (2024-10-14T08:13:28Z) - Banded Square Root Matrix Factorization for Differentially Private Model Training [3.6371628922281305]
本稿では,この計算ボトルネックを克服する新しい行列分解手法であるBSRを提案する。
標準行列平方根の特性を利用することにより、BSRは大規模問題も効率的に扱うことができる。
我々の数値実験により、BSRを用いて訓練されたモデルは、その計算オーバーヘッドを完全に回避しつつ、最良の既存手法と同等に機能することを示した。
論文 参考訳(メタデータ) (2024-05-22T15:47:35Z) - l1-norm regularized l1-norm best-fit lines [3.0963566281269594]
簡単な比率とソート手法を用いた新しいフィッティング法を提案する。
提案アルゴリズムは、O$(n2 m log n)$の最悪の時間複雑性を示し、ある場合にはスパース部分空間に対する大域的最適性を達成する。
論文 参考訳(メタデータ) (2024-02-26T16:30:58Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Online Learning Under A Separable Stochastic Approximation Framework [20.26530917721778]
分離可能な近似フレームワークを用いて,機械学習モデルのクラスに対するオンライン学習アルゴリズムを提案する。
提案アルゴリズムは,他の一般的な学習アルゴリズムと比較して,より堅牢でテスト性能が高いことを示す。
論文 参考訳(メタデータ) (2023-05-12T13:53:03Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Recursive Importance Sketching for Rank Constrained Least Squares:
Algorithms and High-order Convergence [6.757692422527145]
RISROは次元還元最小二乗問題を解くアルゴリズムである。
RISROは実装が容易で計算効率が良く,各イテレーションのコアプロシージャは次元還元最小二乗問題の解法であることを示す。
論文 参考訳(メタデータ) (2020-11-17T01:32:59Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。