論文の概要: Task Switching Without Forgetting via Proximal Decoupling
- arxiv url: http://arxiv.org/abs/2604.18857v1
- Date: Mon, 20 Apr 2026 21:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.50622
- Title: Task Switching Without Forgetting via Proximal Decoupling
- Title(参考訳): 近接デカップリングを経由しないタスク切替
- Authors: Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger, William A. P. Smith, Yue Lu,
- Abstract要約: 継続的な学習において、最大の課題は、古い知識を忘れずに新しい情報を学ぶことである。
一般的な解決策は、このトレードオフを正規化を通じて解決し、以前のタスクに不可欠なパラメータの変更を罰する。
本稿では,作業者の分割によるタスク学習と安定性の強化を分離するアプローチを提案する。
- 参考スコア(独自算出の注目度): 43.88767637201092
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In continual learning, the primary challenge is to learn new information without forgetting old knowledge. A common solution addresses this trade-off through regularization, penalizing changes to parameters critical for previous tasks. In most cases, this regularization term is directly added to the training loss and optimized with standard gradient descent, which blends learning and retention signals into a single update and does not explicitly separate essential parameters from redundant ones. As task sequences grow, this coupling can over-constrain the model, limiting forward transfer and leading to inefficient use of capacity. We propose a different approach that separates task learning from stability enforcement via operator splitting. The learning step focuses on minimizing the current task loss, while a proximal stability step applies a sparse regularizer to prune unnecessary parameters and preserve task-relevant ones. This turns the stability-plasticity into a negotiated update between two complementary operators, rather than a conflicting gradient. We provide theoretical justification for the splitting method on the continual-learning objective, and demonstrate that our proposed solver achieves state-of-the-art results on standard benchmarks, improving both stability and adaptability without the need for replay buffers, Bayesian sampling, or meta-learning components.
- Abstract(参考訳): 継続的な学習において、最大の課題は、古い知識を忘れずに新しい情報を学ぶことである。
一般的な解決策は、このトレードオフを正規化を通じて解決し、以前のタスクに不可欠なパラメータの変更を罰する。
ほとんどの場合、この正規化項はトレーニング損失に直接付加され、学習と保持信号を単一の更新にブレンドし、冗長なパラメータを明示的に分離しない標準勾配降下に最適化される。
タスクシーケンスが大きくなると、この結合はモデルを過剰に制約し、転送を制限し、非効率なキャパシティの使用につながる。
本稿では,作業者の分割によるタスク学習と安定性の強化を分離するアプローチを提案する。
学習ステップは、現在のタスク損失を最小限に抑えることに焦点を当て、一方、近位安定ステップは、不要なパラメータをプーンし、タスクに関連するものを保存するためにスパース正規化器を適用します。
これにより、安定性の塑性は、矛盾する勾配ではなく、2つの相補演算子間の交渉された更新へと変化する。
本稿では,連続学習目標に対する分割法の理論的正当性について述べるとともに,提案手法が標準ベンチマークの最先端結果を実現し,バッファの再生やベイズサンプリング,メタラーニングコンポーネントを必要とせず,安定性と適応性を両立させることを実証する。
関連論文リスト
- Spectral Imbalance Causes Forgetting in Low-Rank Continual Adaptation [58.3773038915023]
継続的な学習は、事前訓練されたモデルを、以前取得した知識を忘れずにシーケンシャルなタスクに適応することを目的としている。
既存のほとんどのアプローチは、現在のタスク固有の更新が以前取得した知識を自然に保存するプロパティを考慮せずに、継続的な学習を過去の更新への干渉を避けるものとして扱う。
本稿では,視覚言語モデルで使用される標準深度ドットと互換性のある一階述語法を用いてこの問題に対処する。
論文 参考訳(メタデータ) (2026-01-31T13:27:02Z) - MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging [29.58798660724693]
連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを順次統合する。
テスト時間連続モデルマージの新しいフレームワークであるMINGLEを提案する。
MINGLEは堅牢な一般化を実現し、忘れることを大幅に減らし、従来の最先端の手法を平均で7-9%上回っている。
論文 参考訳(メタデータ) (2025-05-17T07:24:22Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。