論文の概要: On Understanding of the Dynamics of Model Capacity in Continual Learning
- arxiv url: http://arxiv.org/abs/2508.08052v2
- Date: Thu, 14 Aug 2025 12:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.635753
- Title: On Understanding of the Dynamics of Model Capacity in Continual Learning
- Title(参考訳): 連続学習におけるモデル容量のダイナミクスの理解について
- Authors: Supriyo Chakraborty, Krishnan Raghavan,
- Abstract要約: 本稿では,安定性・塑性バランス点の動的挙動を特徴付けるCLの有効モデル容量について紹介する。
NNアーキテクチャや最適化手法によらず,新しいタスクを表現できるNNの能力は,従来のタスク分布と異なる場合に低下することを示す。
- 参考スコア(独自算出の注目度): 4.871035873389067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stability-plasticity dilemma, closely related to a neural network's (NN) capacity-its ability to represent tasks-is a fundamental challenge in continual learning (CL). Within this context, we introduce CL's effective model capacity (CLEMC) that characterizes the dynamic behavior of the stability-plasticity balance point. We develop a difference equation to model the evolution of the interplay between the NN, task data, and optimization procedure. We then leverage CLEMC to demonstrate that the effective capacity-and, by extension, the stability-plasticity balance point is inherently non-stationary. We show that regardless of the NN architecture or optimization method, a NN's ability to represent new tasks diminishes when incoming task distributions differ from previous ones. We conduct extensive experiments to support our theoretical findings, spanning a range of architectures-from small feedforward network and convolutional networks to medium-sized graph neural networks and transformer-based large language models with millions of parameters.
- Abstract(参考訳): 安定性-塑性ジレンマは、ニューラルネットワーク(NN)の能力-タスクを表現する能力-と密接に関連しており、継続学習(CL)における根本的な課題である。
この文脈において,安定性-塑性バランス点の動的挙動を特徴付けるCLの有効モデル容量(CLEMC)を導入する。
我々は,NN,タスクデータ,最適化手順間の相互作用の進化をモデル化する差分方程式を開発する。
次に、CLEMCを活用して、有効キャパシティと、拡張により、安定性と塑性のバランスポイントが本質的に非定常であることを実証する。
NNアーキテクチャや最適化手法によらず,新しいタスクを表現できるNNの能力は,従来のタスク分布と異なる場合に低下することを示す。
我々は、小さなフィードフォワードネットワークや畳み込みネットワークから、中規模のグラフニューラルネットワークや、数百万のパラメータを持つトランスフォーマーベースの大規模言語モデルまで、さまざまなアーキテクチャにまたがって、我々の理論的な発見をサポートするための広範な実験を行った。
関連論文リスト
- Langevin Flows for Modeling Neural Latent Dynamics [81.81271685018284]
逐次変分自動エンコーダであるLangevinFlowを導入し、潜伏変数の時間的進化をアンダーダム化したLangevin方程式で制御する。
われわれのアプローチは、慣性、減衰、学習されたポテンシャル関数、力などの物理的事前を組み込んで、ニューラルネットワークにおける自律的および非自律的プロセスの両方を表現する。
本手法は,ロレンツ誘引器によって生成される合成神経集団に対する最先端のベースラインより優れる。
論文 参考訳(メタデータ) (2025-07-15T17:57:48Z) - Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Unconditional stability of a recurrent neural circuit implementing divisive normalization [0.0]
任意次元ORGaNICs回路における非条件局所安定性の顕著な特性を証明した。
ORGaNICsは、勾配のクリッピング/スケーリングなしで、時間経過によるバックプロパゲーションによって訓練できることを示す。
論文 参考訳(メタデータ) (2024-09-27T17:46:05Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Self Expanding Convolutional Neural Networks [1.4330085996657045]
本稿では,学習中の畳み込みニューラルネットワーク(CNN)を動的に拡張する新しい手法を提案する。
我々は、単一のモデルを動的に拡張する戦略を採用し、様々な複雑さのレベルでチェックポイントの抽出を容易にする。
論文 参考訳(メタデータ) (2024-01-11T06:22:40Z) - Recurrent neural networks and transfer learning for elasto-plasticity in
woven composites [0.0]
本稿では, 織物のメソスケールシミュレーションの代用として, リカレントニューラルネットワーク(RNN)モデルを提案する。
平均場モデルは、弾塑性挙動を表す包括的データセットを生成する。
シミュレーションでは、任意の6次元ひずみヒストリーを用いて、ランダムウォーキング時の応力を原課題として、循環荷重条件を目標課題として予測する。
論文 参考訳(メタデータ) (2023-11-22T14:47:54Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks
in Continual Learning [23.15206507040553]
本稿では、ニューラルネットワークに現在の課題を学習する能力を持たせるために、補助的ネットワーク継続学習(ANCL)を提案する。
ANCLは、主に安定性に焦点を当てた継続的な学習モデルに可塑性を促進する補助ネットワークを付加する。
より具体的には、提案するフレームワークは、可塑性と安定性を自然に補間する正規化器として実現されている。
論文 参考訳(メタデータ) (2023-03-16T17:00:42Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。