論文の概要: Order parameters and phase transitions of continual learning in deep neural networks
- arxiv url: http://arxiv.org/abs/2407.10315v2
- Date: Sun, 26 Jan 2025 04:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:49:54.105025
- Title: Order parameters and phase transitions of continual learning in deep neural networks
- Title(参考訳): 深部ニューラルネットワークにおける連続学習の次数パラメータと相転移
- Authors: Haozhe Shan, Qianyi Li, Haim Sompolinsky,
- Abstract要約: 継続学習(CL)により、動物は事前知識を消去することなく新しいタスクを学習することができる。
ニューラルネットワーク(NN)におけるCLは、破滅的な忘れが原因で困難であり、新しい学習は古いタスクのパフォーマンスを低下させる。
本稿では,ネットワークの入出力マッピングがタスク列を学習する際に特徴付ける,深層広帯域NNにおけるCLの統計力学理論を提案する。
- 参考スコア(独自算出の注目度): 6.349503549199403
- License:
- Abstract: Continual learning (CL) enables animals to learn new tasks without erasing prior knowledge. CL in artificial neural networks (NNs) is challenging due to catastrophic forgetting, where new learning degrades performance on older tasks. While various techniques exist to mitigate forgetting, theoretical insights into when and why CL fails in NNs are lacking. Here, we present a statistical-mechanics theory of CL in deep, wide NNs, which characterizes the network's input-output mapping as it learns a sequence of tasks. It gives rise to order parameters (OPs) that capture how task relations and network architecture influence forgetting and anterograde interference, as verified by numerical evaluations. For networks with a shared readout for all tasks (single-head CL), the relevant-feature and rule similarity between tasks, respectively measured by two OPs, are sufficient to predict a wide range of CL behaviors. In addition, the theory predicts that increasing the network depth can effectively reduce interference between tasks, thereby lowering forgetting. For networks with task-specific readouts (multi-head CL), the theory identifies a phase transition where CL performance shifts dramatically as tasks become less similar, as measured by another task-similarity OP. While forgetting is relatively mild compared to single-head CL across all tasks, sufficiently low similarity leads to catastrophic anterograde interference, where the network retains old tasks perfectly but completely fails to generalize new learning. Our results delineate important factors affecting CL performance and suggest strategies for mitigating forgetting.
- Abstract(参考訳): 継続学習(CL)により、動物は事前知識を消去することなく新しいタスクを学習することができる。
ニューラルネットワーク(NN)におけるCLは、破滅的な忘れが原因で困難であり、新しい学習は古いタスクのパフォーマンスを低下させる。
忘れを和らげるために様々なテクニックが存在するが、NNでCLが失敗する時期と理由に関する理論的洞察は欠如している。
本稿では,ネットワークの入出力マッピングを特徴付ける深層広帯域NNにおけるCLの統計力学理論を提案する。
数値的な評価によって検証されたように、タスク関係とネットワークアーキテクチャが、忘れと無秩序な干渉にどのように影響するかをキャプチャする順序パラメータ(OP)が生まれる。
全てのタスク(シングルヘッドCL)に対する共有読み出しを持つネットワークでは、それぞれ2つのOPで測定されたタスク間の関連する機能とルールの類似性は、幅広いCLの挙動を予測するのに十分である。
さらに,ネットワーク深度の増加はタスク間の干渉を効果的に減らし,忘れることを減らすことができると予測した。
タスク固有の読み出し(マルチヘッドCL)を持つネットワークでは、別のタスク類似性OPによって測定されるように、CLのパフォーマンスがタスクがより類似しなくなるにつれて劇的な位相遷移が生じる。
全てのタスクにおけるシングルヘッドCLと比較して、忘れることは比較的軽度であるが、十分に類似度が低いと、ネットワークは古いタスクを完全に保持するが、新しい学習を一般化するのに完全に失敗する、破滅的なアンテログラード干渉につながる。
その結果,CL性能に影響を及ぼす重要な要因が明確化され,忘れを緩和するための戦略が示唆された。
関連論文リスト
- Negotiated Representations to Prevent Forgetting in Machine Learning
Applications [0.0]
破滅的な忘れは、機械学習の分野で重要な課題である。
本稿では,機械学習アプリケーションにおける破滅的忘れを防止する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-11-30T22:43:50Z) - Dense Network Expansion for Class Incremental Learning [61.00081795200547]
最先端のアプローチでは、ネットワーク拡張(NE)に基づいた動的アーキテクチャを使用し、タスクごとにタスクエキスパートを追加する。
精度とモデル複雑性のトレードオフを改善するために,新しい NE 手法である高密度ネットワーク拡張 (DNE) を提案する。
従来のSOTA法では、類似またはより小さなモデルスケールで、精度の点で4%のマージンで性能が向上した。
論文 参考訳(メタデータ) (2023-03-22T16:42:26Z) - Continual Learning with Dependency Preserving Hypernetworks [14.102057320661427]
継続学習(CL)問題に対処するための効果的なアプローチは、ターゲットネットワークのタスク依存重みを生成するハイパーネットワークを使用することである。
本稿では,パラメータの効率を保ちながら,依存関係保存型ハイパーネットワークを用いて対象ネットワークの重み付けを生成する手法を提案する。
さらに,RNNベースのハイパーネットワークのための新しい正規化手法とネットワーク成長手法を提案し,継続学習性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-16T04:42:21Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - Theoretical Understanding of the Information Flow on Continual Learning
Performance [2.741266294612776]
連続学習(Continuous Learning, CL)とは、エージェントがデータストリームから連続的に学習しなければならない設定である。
ネットワーク内の情報フローとCL性能の関係について検討し,「層間情報フローの知識はCFを緩和するためにどのように利用できるのか?」という疑問に答える。
我々の分析は、段階的なタスク学習プロセスにおいて、レイヤ内の情報適応に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-04-26T00:35:58Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - Learning to Branch for Multi-Task Learning [12.49373126819798]
ネットワーク内の共有や分岐の場所を学習するマルチタスク学習アルゴリズムを提案する。
本稿では,木分岐操作をガムベル・ソフトマックスサンプリング手法として用いる新しい木構造設計空間を提案する。
論文 参考訳(メタデータ) (2020-06-02T19:23:21Z) - Semantic Drift Compensation for Class-Incremental Learning [48.749630494026086]
ディープネットワークのクラス増分学習は、分類対象のクラス数を順次増加させる。
本研究では,特徴のセマンティックドリフト(セマンティックドリフト)と呼ばれるドリフトを推定し,その補正を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T13:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。