論文の概要: SCALE: Upscaled Continual Learning of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.03270v1
- Date: Wed, 05 Nov 2025 08:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.381249
- Title: SCALE: Upscaled Continual Learning of Large Language Models
- Title(参考訳): SCALE: 大規模言語モデルの大規模継続的学習
- Authors: Jin-woo Lee, Junhwa Choi, Bongkyu Hwang, Jinho Choo, Bogun Kim, JeongSeon Yi, Joonseok Lee, DongYoung Jung, Jaeseon Park, Kyoungwon Park, Suk-hoon Jung,
- Abstract要約: 事前学習した全てのパラメータを凍結しながら、線形モジュールへの軽量な拡張を挿入する幅アップスケーリングアーキテクチャを導入する。
これにより、残余と注意のトポロジが保たれ、ベースモデルの本来の機能を乱すことなくキャパシティが向上する。
対応解析は、保存が確実に保持されるときと、保存と適応の相互作用が最適化を安定化させる理由を明らかにする。
- 参考スコア(独自算出の注目度): 15.0007740485038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit continual pre-training for large language models and argue that progress now depends more on scaling the right structure than on scaling parameters alone. We introduce SCALE, a width upscaling architecture that inserts lightweight expansion into linear modules while freezing all pre-trained parameters. This preserves the residual and attention topologies and increases capacity without perturbing the base model's original functionality. SCALE is guided by two principles: Persistent Preservation, which maintains the base model's behavior via preservation-oriented initialization and freezing of the pre-trained weights, and Collaborative Adaptation, which selectively trains a subset of expansion components to acquire new knowledge with minimal interference. We instantiate these ideas as SCALE-Preserve (preservation-first), SCALE-Adapt (adaptation-first), and SCALE-Route, an optional routing extension that performs token-level routing between preservation and adaptation heads. On a controlled synthetic biography benchmark, SCALE mitigates the severe forgetting observed with depth expansion while still acquiring new knowledge. In continual pre-training on a Korean corpus, SCALE variants achieve less forgetting on English evaluations and competitive gains on Korean benchmarks, with these variants offering the best overall stability-plasticity trade-off. Accompanying analysis clarifies when preservation provably holds and why the interplay between preservation and adaptation stabilizes optimization compared to standard continual learning setups.
- Abstract(参考訳): 大規模言語モデルに対する継続的な事前トレーニングを再検討し、現在進行はパラメータのみをスケーリングすることよりも、適切な構造をスケーリングすることに依存している、と論じる。
事前訓練されたパラメータをすべて凍結しながら、線形モジュールへの軽量な拡張を挿入する、幅のアップスケーリングアーキテクチャであるSCALEを導入する。
これにより、残余と注意のトポロジが保たれ、ベースモデルの本来の機能を乱すことなくキャパシティが向上する。
SCALEは2つの原則によって導かれる: 持続的保存(Persistent Preservation)は、保存指向の初期化と事前訓練された重量の凍結を通じてベースモデルの振舞いを維持し、協調適応(Collaborative Adaptation)は、最小限の干渉で新しい知識を得るために拡張コンポーネントのサブセットを選択的に訓練する。
これらのアイデアをSCALE-Preserve(保存ファースト)、SCALE-Adapt(適応ファースト)、SCALE-Route(保存と適応ヘッド間のトークンレベルのルーティングを実行するオプションルーティング拡張)としてインスタンス化する。
制御された合成バイオグラフィーのベンチマークでは、SCALEは新しい知識を得ながら深度を拡大して観察された深い忘れを軽減している。
韓国のコーパスでの継続的な事前トレーニングにおいて、SCALEの変種は、英語の評価と韓国のベンチマークの競争的利益を忘れることが少なく、これらの変種は、全体的な安定性と塑性のトレードオフとして最高のものを提供する。
対応分析は、保存が確実に保持されるときと、保存と適応の相互作用が標準の連続学習装置と比較して最適化を安定化させる理由を明らかにする。
関連論文リスト
- The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Sculpting [CLS] Features for Pre-Trained Model-Based Class-Incremental Learning [3.73232466691291]
クラス増分学習は、古いクラスを忘れることなく、新しいクラスの知識を継続的に獲得するモデルを必要とする。
事前学習されたモデルは、クラス増分学習において強い性能を示してきたが、新しい概念を学ぶ際に破滅的な忘れをしがちである。
本稿では,新しいパラメータ効率の高い微調整モジュール「Learn and Calibrate」 (LuCA) を導入する。
各学習セッションで、最後のトークンの上にスパースLuCAモジュールをデプロイし、それを'Token-level Sparse and Adaptation'(TO)と呼ぶ。
論文 参考訳(メタデータ) (2025-02-20T17:37:08Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy
for Language Models [35.58379464827462]
本稿では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現する訓練後プルーニング戦略を提案する。
他の最先端のベースラインと比較して、我々の手法は、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。
論文 参考訳(メタデータ) (2023-10-19T23:02:29Z) - Adversarial Self-Attention for Language Understanding [89.265747130584]
本稿では,textitAdversarial Self-Attention Mechanism (ASA)を提案する。
ASAはトランスフォーマーの注意を逆向きに再構築し、汚染されたモデル構造からのモデルトレーニングを促進する。
微調整の場合、ASAを動力とするモデルは、一般化とロバスト性の両方を考慮すると、単純モデルよりも常に大きなマージンで勝る。
論文 参考訳(メタデータ) (2022-06-25T09:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。