論文の概要: MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging
- arxiv url: http://arxiv.org/abs/2505.11883v1
- Date: Sat, 17 May 2025 07:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.91512
- Title: MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging
- Title(参考訳): MINGLE: テスト時間連続モデルマージのためのNull空間Gated Low-Rankエキスパートの混合
- Authors: Zihuan Qiu, Yi Xu, Chiyuan He, Fanman Meng, Linfeng Xu, Qingbo Wu, Hongliang Li,
- Abstract要約: 連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、個別に微調整されたモデルを逐次統合する。
MINGLEは、少数の未ラベルテストサンプルを使用したテスト時間連続モデルマージのための新しいフレームワークである。
MINGLEは、従来の最先端のメソッドを、さまざまなタスクオーダの平均で7-9%上回っている。
- 参考スコア(独自算出の注目度): 19.916880222546155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual model merging integrates independently fine-tuned models sequentially without access to original training data, providing a scalable and efficient solution to continual learning. However, current methods still face critical challenges, notably parameter interference among tasks and limited adaptability to evolving test distributions. The former causes catastrophic forgetting of integrated tasks, while the latter hinders effective adaptation to new tasks. To address these, we propose MINGLE, a novel framework for test-time continual model merging, which leverages test-time adaptation using a small set of unlabeled test samples from the current task to dynamically guide the merging process. MINGLE employs a mixture-of-experts architecture composed of parameter-efficient, low-rank experts, enabling efficient adaptation and improving robustness to distribution shifts. To mitigate catastrophic forgetting, we propose Null-Space Constrained Gating, which restricts gating updates to subspaces orthogonal to prior task representations. This suppresses activations on old task inputs and preserves model behavior on past tasks. To further balance stability and adaptability, we design an Adaptive Relaxation Strategy, which dynamically adjusts the constraint strength based on interference signals captured during test-time adaptation. Extensive experiments on standard continual merging benchmarks demonstrate that MINGLE achieves robust generalization, reduces forgetting significantly, and consistently surpasses previous state-of-the-art methods by 7-9\% on average across diverse task orders.
- Abstract(参考訳): 連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、個別に微調整されたモデルを逐次統合し、連続学習のためのスケーラブルで効率的なソリューションを提供する。
しかし、現在の手法はまだ重要な課題に直面しており、特にタスク間のパラメータ干渉と、進化するテスト分布への適応性に制限がある。
前者は統合タスクの破滅的な忘れ込みを引き起こし、後者は新しいタスクへの効果的な適応を妨げる。
そこで本研究では,テスト時間継続モデル統合のための新しいフレームワークであるMINGLEを提案する。
MINGLEはパラメータ効率のよい低ランクの専門家で構成され、効率的な適応を可能にし、分散シフトに対する堅牢性を向上させる。
破滅的な忘れを緩和するため,従来のタスク表現に直交する部分空間へのゲーティング更新を制限するNull-Space Constrained Gatingを提案する。
これにより、古いタスク入力のアクティベーションが抑制され、過去のタスクのモデル動作が保存される。
安定性と適応性をさらに高めるために、テスト時間適応時に捕捉した干渉信号に基づいて制約強度を動的に調整する適応緩和戦略を設計する。
標準的な連続的マージベンチマークに関する大規模な実験は、MINGLEが堅牢な一般化を達成し、忘れることを大幅に減らし、様々なタスク順序で平均7~9倍の精度で従来の最先端の手法を一貫して上回っていることを示している。
関連論文リスト
- Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Adaptive Cascading Network for Continual Test-Time Adaptation [12.718826132518577]
そこで本研究では,テスト時に対象ドメインの列に事前学習したソースモデルを適応させることを目標とする連続的なテスト時間適応の問題について検討する。
テストタイムトレーニングの既存の方法には、いくつかの制限がある。
論文 参考訳(メタデータ) (2024-07-17T01:12:57Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Generalized Robust Test-Time Adaptation in Continuous Dynamic Scenarios [18.527640606971563]
テスト時間適応(TTA)は、未ラベルのテストデータストリームのみを使用する推論フェーズにおいて、事前訓練されたモデルに分散をテストする。
本稿では,問題に効果的に対応する汎用ロバストテスト時間適応(GRoTTA)法を提案する。
論文 参考訳(メタデータ) (2023-10-07T07:13:49Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。