論文の概要: On Understanding of the Dynamics of Model Capacity in Continual Learning
- arxiv url: http://arxiv.org/abs/2508.08052v2
- Date: Thu, 14 Aug 2025 12:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.635753
- Title: On Understanding of the Dynamics of Model Capacity in Continual Learning
- Title(参考訳): 連続学習におけるモデル容量のダイナミクスの理解について
- Authors: Supriyo Chakraborty, Krishnan Raghavan,
- Abstract要約: 本稿では,安定性・塑性バランス点の動的挙動を特徴付けるCLの有効モデル容量について紹介する。
NNアーキテクチャや最適化手法によらず,新しいタスクを表現できるNNの能力は,従来のタスク分布と異なる場合に低下することを示す。
- 参考スコア(独自算出の注目度): 4.871035873389067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stability-plasticity dilemma, closely related to a neural network's (NN) capacity-its ability to represent tasks-is a fundamental challenge in continual learning (CL). Within this context, we introduce CL's effective model capacity (CLEMC) that characterizes the dynamic behavior of the stability-plasticity balance point. We develop a difference equation to model the evolution of the interplay between the NN, task data, and optimization procedure. We then leverage CLEMC to demonstrate that the effective capacity-and, by extension, the stability-plasticity balance point is inherently non-stationary. We show that regardless of the NN architecture or optimization method, a NN's ability to represent new tasks diminishes when incoming task distributions differ from previous ones. We conduct extensive experiments to support our theoretical findings, spanning a range of architectures-from small feedforward network and convolutional networks to medium-sized graph neural networks and transformer-based large language models with millions of parameters.
- Abstract(参考訳): 安定性-塑性ジレンマは、ニューラルネットワーク(NN)の能力-タスクを表現する能力-と密接に関連しており、継続学習(CL)における根本的な課題である。
この文脈において,安定性-塑性バランス点の動的挙動を特徴付けるCLの有効モデル容量(CLEMC)を導入する。
我々は,NN,タスクデータ,最適化手順間の相互作用の進化をモデル化する差分方程式を開発する。
次に、CLEMCを活用して、有効キャパシティと、拡張により、安定性と塑性のバランスポイントが本質的に非定常であることを実証する。
NNアーキテクチャや最適化手法によらず,新しいタスクを表現できるNNの能力は,従来のタスク分布と異なる場合に低下することを示す。
我々は、小さなフィードフォワードネットワークや畳み込みネットワークから、中規模のグラフニューラルネットワークや、数百万のパラメータを持つトランスフォーマーベースの大規模言語モデルまで、さまざまなアーキテクチャにまたがって、我々の理論的な発見をサポートするための広範な実験を行った。
関連論文リスト
- Recurrent neural networks and transfer learning for elasto-plasticity in
woven composites [0.0]
本稿では, 織物のメソスケールシミュレーションの代用として, リカレントニューラルネットワーク(RNN)モデルを提案する。
平均場モデルは、弾塑性挙動を表す包括的データセットを生成する。
シミュレーションでは、任意の6次元ひずみヒストリーを用いて、ランダムウォーキング時の応力を原課題として、循環荷重条件を目標課題として予測する。
論文 参考訳(メタデータ) (2023-11-22T14:47:54Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks
in Continual Learning [23.15206507040553]
本稿では、ニューラルネットワークに現在の課題を学習する能力を持たせるために、補助的ネットワーク継続学習(ANCL)を提案する。
ANCLは、主に安定性に焦点を当てた継続的な学習モデルに可塑性を促進する補助ネットワークを付加する。
より具体的には、提案するフレームワークは、可塑性と安定性を自然に補間する正規化器として実現されている。
論文 参考訳(メタデータ) (2023-03-16T17:00:42Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。