論文の概要: FeatCal: Feature Calibration for Post-Merging Models
- arxiv url: http://arxiv.org/abs/2605.13030v1
- Date: Wed, 13 May 2026 05:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.829197
- Title: FeatCal: Feature Calibration for Post-Merging Models
- Title(参考訳): FeatCal: 後処理モデルの特徴校正
- Authors: Yanggan Gu, Shuo Cai, Zihao Wang, Wenjun Wang, Yuanyi Wang, Pengkai Wang, Sirui Huang, Su Lu, Jianmin Wu, Hongxia Yang,
- Abstract要約: モデルマージは、タスクエキスパートをひとつのモデルに統合し、共同トレーニング、再トレーニング、あるいは多くのエキスパートモデルのデプロイを避ける。
我々は,この性能差を特徴量ドリフト(特徴量ドリフト),マージモデルと専門家による同一入力における特徴量差から検討する。
このビューはFeatCalを動機付けている。FeatCalは、小さなキャリブレーションセットを使用して、マージされたモデルの重み付け層を前方に調整する。
- 参考スコア(独自算出の注目度): 37.524690106426284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging combines task experts into one model and avoids joint training, retraining, or deploying many expert models, but the merged model often still underperforms task experts. We study this performance gap through feature drift, the difference between features produced by the merged model and by the expert on the same input. Our theory decomposes this drift into upstream propagation and local mismatch, tracks how it propagates and combines through later layers in forward order, and links final feature drift to output drift. This view motivates FeatCal, which uses a small calibration set to calibrate the merged model weights layer by layer in forward order, reducing feature drift while staying close to merged weights and preserving the benefits of model merging. FeatCal uses an efficient closed-form solution to update model weights, with no gradient descent, iterative optimization, or extra modules. On the main CLIP and GLUE benchmarks, FeatCal beats Surgery and ProbSurgery, the closest post-merging calibration baselines: 85.5% vs. 77.0%/78.8% on CLIP-ViT-B/32 Task Arithmetic (TA) and 85.2% vs. 83.7%/82.2% on FLAN-T5-base GLUE. On CLIP-ViT-B/32, 8 examples per task reach 82.9%, and 256 examples per task take 53 seconds, about 4x faster than both baselines, showing better sample efficiency and lower calibration cost.
- Abstract(参考訳): モデルマージは、タスクエキスパートをひとつのモデルに統合し、ジョイントトレーニング、リトレーニング、あるいは多くのエキスパートモデルのデプロイを避ける。
我々は,この性能差を特徴量ドリフト(特徴量ドリフト),マージモデルと専門家による同一入力における特徴量差から検討する。
我々の理論は、このドリフトを上流の伝播と局所的なミスマッチに分解し、後続の層を前方に伝播し結合する方法を追跡し、最終特徴ドリフトをリンクしてドリフトを出力する。
このビューはFeatCalを動機付けており、FeatCalは小さなキャリブレーションセットを使用して、マージしたモデルの重み付け層を前方に調整し、マージした重みに近づきながら特徴のドリフトを低減し、モデルマージの利点を保存する。
FeatCalは効率的なクローズドフォームソリューションを使用してモデルウェイトを更新する。
CLIP と GLUE のベンチマークでは、FeatCal は 85.5%対 77.0%/78.8%対 CLIP-ViT-B/32 Task Arithmetic (TA) で 85.2%対 83.7%/82.2% で FLAN-T5-base GLUE で 85.7%/82.2% である。
CLIP-ViT-B/32では、タスク毎の8つの例は82.9%、タスク毎の256の例は53秒で、どちらのベースラインよりも約4倍速く、サンプル効率が良く、キャリブレーションコストも低い。
関連論文リスト
- MAGIC: Achieving Superior Model Merging via Magnitude Calibration [46.30162864565835]
モデルマージは、特殊化されたモデルの能力を統一されたモデルにマージすることを目的としている。
特徴は方向と大きさの2つの重要な構成要素から成っている。
MAGnItude (MAGIC) は,特徴空間と重み空間の層規模を補正するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2025-12-22T12:13:17Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。
EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。
異なるモデルファミリー間で顕著な効率向上を示す。
論文 参考訳(メタデータ) (2025-02-05T22:15:21Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Aligner: Efficient Alignment by Learning to Correct [10.056049435141645]
モデルに依存しないプラグアンドプレイモジュールであるAlignerを導入し、好ましくない回答と好ましくない回答の補正残差を学習する。
トレーニングはワンオフで、さまざまなオープンソースおよびAPIベースのモデルに適用できるため、迅速なイテレーションに適している。
実験では、11の異なる言語モデルに同じAlignerモデルをデプロイすることで、パフォーマンスの向上を実証した。
論文 参考訳(メタデータ) (2024-02-04T09:24:51Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。