論文の概要: Toward a Holistic Approach to Continual Model Merging
- arxiv url: http://arxiv.org/abs/2509.23592v1
- Date: Sun, 28 Sep 2025 02:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.31036
- Title: Toward a Holistic Approach to Continual Model Merging
- Title(参考訳): 連続モデルマージへの全体論的アプローチに向けて
- Authors: Hoang Phan, Sungmin Cha, Tung Lam Tran, Qi Lei,
- Abstract要約: 本稿では,統合前,統合後,継続学習における2つの基本的な課題に対処する,3つの重要な段階に介入する連続モデル統合のための総合的枠組みを提案する。
提案手法は,まずドメイン固有データに基づいて,その接空間内の主モデルを微調整することによって,制約を克服する。
マージ中は、単にパラメータ平均を超える利用可能な状態からの関数情報を活用して、古いモデルを再検討する必要を回避する。
最後に、マージ後の補正は、事前および後マージされたモデル間の表現差を調整し、バイアスを低減し、一定のメモリ制約の下で動作しながら、全体的なパフォーマンスを向上する。
- 参考スコア(独自算出の注目度): 24.769931209311498
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present a holistic framework for continual model merging that intervenes at three critical stages: pre-merging, during merging, and post-merging-to address two fundamental challenges in continual learning. In particular, conventional approaches either maintain a growing list of per-domain task vectors, leading to scalability issues or rely solely on weight-space merging when old data is inaccessible, thereby losing crucial functional information. Our method overcomes these limitations by first fine-tuning the main model within its tangent space on domain-specific data; this linearization amplifies per-task weight disentanglement, effectively mitigating across-task interference. During merging, we leverage functional information from available optimizer states beyond mere parameter averages to avoid the need to revisit old data. Finally, a post-merging correction aligns the representation discrepancy between pre- and post-merged models, reducing bias and enhancing overall performance-all while operating under constant memory constraints without accessing historical data. Extensive experiments on standard class-incremental and domain-incremental benchmarks demonstrate that our approach not only achieves competitive performance but also provides a scalable and efficient solution to the catastrophic forgetting problem.
- Abstract(参考訳): 本稿では,統合前,統合後,継続学習における2つの基本的な課題に対処する,3つの重要な段階に介入する連続モデル統合のための総合的枠組みを提案する。
特に、従来のアプローチでは、ドメイン単位のタスクベクトルの増大リストを維持しており、スケーラビリティの問題につながるか、古いデータがアクセスできない場合の重み空間のマージにのみ依存しているため、重要な機能情報が失われる。
本手法は,まずドメイン固有データに基づいて,その接空間内の主モデルを微調整することにより,これらの制約を克服する。
マージ中は、単にパラメータ平均を超えた利用可能なオプティマイザ状態の機能情報を活用して、古いデータを再検討する必要を回避する。
最終的に、マージ後の補正は、事前および後マージされたモデル間の表現の相違を調整し、バイアスを低減し、履歴データにアクセスすることなく、一定のメモリ制約の下で動作しながら、全体的なパフォーマンスを向上する。
標準クラスインクリメンタルおよびドメインインクリメンタルベンチマークに関する大規模な実験は、我々のアプローチが競争性能を達成するだけでなく、破滅的な忘れ問題に対するスケーラブルで効率的な解決策を提供することを示した。
関連論文リスト
- OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Heterogeneous Self-Supervised Acoustic Pre-Training with Local Constraints [64.15709757611369]
異種データを扱うための自己教師付き事前学習手法を提案する。
提案手法は、下流の教師付き微調整タスクに対する自己教師付き事前訓練モデルの適応性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-08-27T15:48:50Z) - Whoever Started the Interference Should End It: Guiding Data-Free Model Merging via Task Vectors [27.848233831749216]
textbfWUDI-Merging(textbfWhoever started the interference shotextbfUld entextbfD textbfIt)は、追加データや再スケーリング係数なしで干渉を排除するモデルマージ手法である。
視覚と言語ベンチマークの総合的な経験的評価は、我々の方法の優位性を示している。
論文 参考訳(メタデータ) (2025-03-11T07:01:35Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental Learning [57.43911113915546]
FSCIL(Few-Shot Class-Incremental Learning)は、問題空間を限られたデータで拡張するパラダイムを導入する。
FSCILの手法は、データが漸進的に到着するにつれて、破滅的な忘れ込みの課題に直面している。
表現空間における特徴の直交性と対照的な学習という2つの基本原理に基づいて構築されたOrCoフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T13:30:48Z) - Vanishing Feature: Diagnosing Model Merging and Beyond [1.1510009152620668]
結合モデルによる伝搬中に入力誘起特徴が減少する「消滅特徴」現象を同定する。
既存の正規化戦略は、消滅する特徴問題を的確に標的にすることで強化できることを示す。
初期層機能の保存に重点を置いたPFM(Preserve-First Merging')戦略を提案する。
論文 参考訳(メタデータ) (2024-02-05T17:06:26Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。