論文の概要: MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging
- arxiv url: http://arxiv.org/abs/2505.11883v2
- Date: Mon, 29 Sep 2025 05:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.316763
- Title: MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging
- Title(参考訳): MINGLE: テスト時間連続モデルマージのためのNull空間Gated Low-Rankエキスパートの混合
- Authors: Zihuan Qiu, Yi Xu, Chiyuan He, Fanman Meng, Linfeng Xu, Qingbo Wu, Hongliang Li,
- Abstract要約: 連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを順次統合する。
既存の手法では、タスク間のパラメータ干渉という2つの重要な課題に直面している。
テスト時間連続モデルマージの新しいフレームワークであるMINGLEを提案する。
- 参考スコア(独自算出の注目度): 29.58798660724693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual model merging integrates independently fine-tuned models sequentially without access to the original training data, offering a scalable and efficient solution for continual learning. However, existing methods face two critical challenges: parameter interference among tasks, which leads to catastrophic forgetting, and limited adaptability to evolving test distributions. To address these issues, we introduce the task of Test-Time Continual Model Merging (TTCMM), which leverages a small set of unlabeled test samples during inference to alleviate parameter conflicts and handle distribution shifts. We propose MINGLE, a novel framework for TTCMM. MINGLE employs a mixture-of-experts architecture with parameter-efficient, low-rank experts, which enhances adaptability to evolving test distributions while dynamically merging models to mitigate conflicts. To further reduce forgetting, we propose Null-Space Constrained Gating, which restricts gating updates to subspaces orthogonal to prior task representations, thereby suppressing activations on old tasks and preserving past knowledge. We further introduce an Adaptive Relaxation Strategy that adjusts constraint strength dynamically based on interference signals observed during test-time adaptation, striking a balance between stability and adaptability. Extensive experiments on standard continual merging benchmarks demonstrate that MINGLE achieves robust generalization, significantly reduces forgetting, and consistently surpasses previous state-of-the-art methods by 7-9\% on average across diverse task orders. Our code is available at: https://github.com/zihuanqiu/MINGLE
- Abstract(参考訳): 連続モデルマージは、元のトレーニングデータにアクセスすることなく、独立して微調整されたモデルを逐次統合し、継続的な学習のためのスケーラブルで効率的なソリューションを提供する。
しかし、既存の手法では、タスク間のパラメータ干渉という2つの重要な課題に直面している。
これらの問題に対処するために、パラメータの衝突を緩和し、分散シフトを処理するために、推論中にラベルなしテストサンプルの小さなセットを活用するTTCMM(Test-Time Continual Model Merging)のタスクを導入する。
TTCMMの新しいフレームワークであるMINGLEを提案する。
MINGLEはパラメータ効率の低い低ランクのエキスパートで、テストディストリビューションの進化への適応性を高めながら、モデルを動的にマージすることで競合を緩和する。
さらに,従来のタスク表現と直交する部分空間へのゲーティング更新を制限するNull-Space Constrained Gatingを提案する。
さらに、テスト時間適応中に観測される干渉信号に基づいて制約強度を動的に調整し、安定性と適応性のバランスを崩す適応緩和戦略を導入する。
標準的な連続的マージベンチマークに関する大規模な実験は、MINGLEが堅牢な一般化を達成し、忘れを著しく減らし、様々なタスク順序で平均7~9倍の精度で従来の最先端の手法を一貫して上回っていることを示している。
私たちのコードは、https://github.com/zihuanqiu/MINGLEで利用可能です。
関連論文リスト
- Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。
我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:17:39Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。
理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Adaptive Cascading Network for Continual Test-Time Adaptation [12.718826132518577]
そこで本研究では,テスト時に対象ドメインの列に事前学習したソースモデルを適応させることを目標とする連続的なテスト時間適応の問題について検討する。
テストタイムトレーニングの既存の方法には、いくつかの制限がある。
論文 参考訳(メタデータ) (2024-07-17T01:12:57Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Generalized Robust Test-Time Adaptation in Continuous Dynamic Scenarios [18.527640606971563]
テスト時間適応(TTA)は、未ラベルのテストデータストリームのみを使用する推論フェーズにおいて、事前訓練されたモデルに分散をテストする。
本稿では,問題に効果的に対応する汎用ロバストテスト時間適応(GRoTTA)法を提案する。
論文 参考訳(メタデータ) (2023-10-07T07:13:49Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。