論文の概要: A Theoretical Analysis of Catastrophic Forgetting through the NTK
Overlap Matrix
- arxiv url: http://arxiv.org/abs/2010.04003v2
- Date: Thu, 25 Feb 2021 15:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 21:51:52.302064
- Title: A Theoretical Analysis of Catastrophic Forgetting through the NTK
Overlap Matrix
- Title(参考訳): NTKオーバーラップマトリックスによる破砕現象の理論的解析
- Authors: Thang Doan, Mehdi Bennani, Bogdan Mazoure, Guillaume Rabusseau, Pierre
Alquier
- Abstract要約: その結果,2つのタスクが整合するにつれて,カタストロフィック・フォージッティングの影響が増大していることが示唆された。
本稿では,データ構造を利用した直交勾配Descent (OGD) の変種を提案する。
実験は、我々の理論的な結果をサポートし、我々の手法が古典的なCLデータセットにおけるCFの削減にどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 16.106653541368306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) is a setting in which an agent has to learn from an
incoming stream of data during its entire lifetime. Although major advances
have been made in the field, one recurring problem which remains unsolved is
that of Catastrophic Forgetting (CF). While the issue has been extensively
studied empirically, little attention has been paid from a theoretical angle.
In this paper, we show that the impact of CF increases as two tasks
increasingly align. We introduce a measure of task similarity called the NTK
overlap matrix which is at the core of CF. We analyze common projected gradient
algorithms and demonstrate how they mitigate forgetting. Then, we propose a
variant of Orthogonal Gradient Descent (OGD) which leverages structure of the
data through Principal Component Analysis (PCA). Experiments support our
theoretical findings and show how our method can help reduce CF on classical CL
datasets.
- Abstract(参考訳): 連続学習(continual learning、cl)は、エージェントが生涯を通じて入力されるデータストリームから学ぶ必要がある設定である。
この分野での大きな進歩はあったが、未解決のまま続いている問題の1つは、カタストロフィック・フォーッティング(CF)である。
この問題は経験的に研究されているが、理論的な角度からはほとんど注目されていない。
本稿では,2つのタスクが整合するにつれてCFの影響が増加することを示す。
我々は,cf の核となる ntk 重なり行列と呼ばれるタスク類似性の尺度を導入する。
一般的な予測型勾配アルゴリズムを分析して,忘れることの軽減方法を示す。
そこで本研究では,主成分分析 (PCA) によるデータ構造を利用した直交勾配Descent (OGD) の変種を提案する。
実験は理論的な結果をサポートし,従来のCLデータセットのCF削減にどのように役立つかを示す。
関連論文リスト
- Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。
本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。
様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-07T11:09:13Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Can Decentralized Stochastic Minimax Optimization Algorithms Converge
Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。
本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:19:39Z) - Theory on Forgetting and Generalization of Continual Learning [41.85538120246877]
連続学習(CL)は、一連のタスクを学習することを目的としている。
どの要因が重要か、それらが「破滅的な忘れ方」や一般化のパフォーマンスにどのように影響するかについて、理解の欠如がある。
本研究の結果は,最近の研究で興味深い経験的観察結果を説明するだけでなく,CLのより実用的なアルゴリズム設計の動機も示している。
論文 参考訳(メタデータ) (2023-02-12T02:14:14Z) - Distributed Robust Principal Analysis [0.0]
分散環境でのロバストな主成分分析問題について検討する。
DCF-PCAと呼ばれるコンセンサス因数分解に基づく最初の分散ロバストな主解析アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-24T05:45:07Z) - Challenging Common Assumptions about Catastrophic Forgetting [13.1202659074346]
本研究では,データ再帰を伴うタスクの長いシーケンスにおいて,勾配に基づくアルゴリズムを用いて訓練されたDNNにおける進歩的知識蓄積(KA)について検討する。
そこで我々は,SCoLeという新しいフレームワークを提案し,SGDで訓練したDNNに対して破滅的忘れ込みが限定的であることを示す。
論文 参考訳(メタデータ) (2022-07-10T21:40:54Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - A Survey on Concept Factorization: From Shallow to Deep Representation
Learning [104.78577405792592]
概念因子化(CF)は、機械学習とデータマイニングの分野で大きな関心を集めています。
まず、ルートCF法を再検討し、CFに基づく表現学習の進歩について検討する。
また、CFベースの手法の潜在的な適用領域についても紹介する。
論文 参考訳(メタデータ) (2020-07-31T04:19:14Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。