論文の概要: MERGETUNE: Continued fine-tuning of vision-language models
- arxiv url: http://arxiv.org/abs/2601.10497v2
- Date: Fri, 16 Jan 2026 04:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.066615
- Title: MERGETUNE: Continued fine-tuning of vision-language models
- Title(参考訳): MERGETUNE:視覚言語モデルの微調整を継続する
- Authors: Wenqing Wang, Da Li, Xiatian Zhu, Josef Kittler,
- Abstract要約: 微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
- 参考スコア(独自算出の注目度): 77.8627788911249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning vision-language models (VLMs) such as CLIP often leads to catastrophic forgetting of pretrained knowledge. Prior work primarily aims to mitigate forgetting during adaptation; however, forgetting often remains inevitable during this process. We introduce a novel paradigm, continued fine-tuning (CFT), which seeks to recover pretrained knowledge after a zero-shot model has already been adapted. We propose a simple, model-agnostic CFT strategy (named MERGETUNE) guided by linear mode connectivity (LMC), which can be applied post hoc to existing fine-tuned models without requiring architectural changes. Given a fine-tuned model, we continue fine-tuning its trainable parameters (e.g., soft prompts or linear heads) to search for a continued model which has two low-loss paths to the zero-shot (e.g., CLIP) and the fine-tuned (e.g., CoOp) solutions. By exploiting the geometry of the loss landscape, the continued model implicitly merges the two solutions, restoring pretrained knowledge lost in the fine-tuned counterpart. A challenge is that the vanilla LMC constraint requires data replay from the pretraining task. We approximate this constraint for the zero-shot model via a second-order surrogate, eliminating the need for large-scale data replay. Experiments show that MERGETUNE improves the harmonic mean of CoOp by +5.6% on base-novel generalisation without adding parameters. On robust fine-tuning evaluations, the LMC-merged model from MERGETUNE surpasses ensemble baselines with lower inference cost, achieving further gains and state-of-the-art results when ensembled with the zero-shot model. Our code is available at https://github.com/Surrey-UP-Lab/MERGETUNE.
- Abstract(参考訳): CLIPのような微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
先行研究は、主に適応中に忘れることを軽減することを目的としているが、この過程で忘れることはしばしば避けられない。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
本稿では,線形モード接続(LMC)によって誘導されるシンプルなモデルに依存しないCFT戦略(MERGETUNE)を提案する。
微調整モデルが与えられた場合、トレーニング可能なパラメータ(例えばソフトプロンプトやリニアヘッド)を微調整し続け、ゼロショット(eg, CLIP)と微調整(eg, CoOp)の2つの低損失パスを持つ継続モデルを探索する。
損失ランドスケープの幾何学を利用することにより、継続モデルは2つの解を暗黙的に融合させ、微調整された解で失われた事前学習された知識を復元する。
課題は、バニラLCC制約が事前トレーニングタスクからデータリプレイを必要とすることだ。
我々はこの制約を2次サロゲートを介してゼロショットモデルに近似し、大規模データ再生の必要性を排除した。
実験により、MERGETUNEはパラメータを追加することなくベースノーベル一般化においてCoOpの調和平均を+5.6%改善することが示された。
頑健な微調整評価では、MERGETUNEのLCCマージモデルがアンサンブルベースラインをはるかに越え、ゼロショットモデルとアンサンブルした場合、さらなるゲインと最先端の結果が得られる。
私たちのコードはhttps://github.com/Surrey-UP-Lab/MERGETUNE.comで公開されています。
関連論文リスト
- Model Inversion with Layer-Specific Modeling and Alignment for Data-Free Continual Learning [19.12792297140574]
継続的な学習は、以前のタスクのパフォーマンスを維持しながら、一連のタスクでモデルを漸進的にトレーニングすることを目的としています。
データの保存と再生は、プライバシやセキュリティ上の制約によって不可能になることが多い。
単層最適化における高速収束にインスパイアされたPMI(Per-layer Model Inversion)を提案する。
論文 参考訳(メタデータ) (2025-10-30T09:58:48Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [7.972074133591484]
我々は, LLMの任意のプルーニングアルゴリズム上で使用可能な, エフェストアップアルゴリズムである textbfNeuroAl を提案する。
我々の手法は、パフォーマンス・ランタイムトレードオフの観点から最新の最先端手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。