論文の概要: Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging
- arxiv url: http://arxiv.org/abs/2504.18580v1
- Date: Wed, 23 Apr 2025 05:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.887647
- Title: Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging
- Title(参考訳): 計量重み付き平均化によるパラメータ効率の良いチェックポイントマージ
- Authors: Shi Jie Yu, Sehyun Choi,
- Abstract要約: チェックポイントマージ(Checkpoint merging)は、複数のモデルスナップショットを1つの優れたモデルに組み合わせるテクニックである。
本稿では,パラメータ効率のよい微調整の文脈におけるチェックポイントのマージについて検討する。
本稿では,パラメータの重み付けによるモデルチェックポイントのマージにMWA(Metrics-Weighted Averaging)を提案する。
- 参考スコア(独自算出の注目度): 2.9761595094633435
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Checkpoint merging is a technique for combining multiple model snapshots into a single superior model, potentially reducing training time for large language models. This paper explores checkpoint merging in the context of parameter-efficient fine-tuning (PEFT), where only small adapter modules (e.g. LoRA) are trained. We propose Metrics-Weighted Averaging (MWA), a simple yet effective method to merge model checkpoints by weighting their parameters according to performance metrics. In particular, we investigate weighting by training loss and by training steps, under the intuition that lower-loss or later-step checkpoints are more valuable. We introduce a formula with a penalty factor to adjust weight distribution, requiring only one hyperparameter regardless of the number of checkpoints. Experiments on three fine-tuning tasks (mathematical reasoning, preference alignment, and general instruction tuning) show that MWA consistently produces merged models that outperform the naive uniform average of checkpoints. Notably, loss-weighted merging often yields the best results, delivering up to 5% higher task accuracy than the baseline uniform merge and even surpassing the final individual checkpoint's performance. These findings validate checkpoint merging for PEFT and demonstrate that a metric-driven weighting heuristic can efficiently boost model performance with minimal computational overhead.
- Abstract(参考訳): チェックポイントマージ(Checkpoint merging)は、複数のモデルスナップショットを1つの優れたモデルに結合するテクニックであり、大きな言語モデルのトレーニング時間を短縮する可能性がある。
本稿では,小アダプタモジュール(eg LoRA)のみをトレーニングするPEFT(パラメータ効率のよい微調整)の文脈におけるチェックポイントのマージについて検討する。
本稿では,パラメータの重み付けによるモデルチェックポイントのマージを簡便かつ効果的に行うため,MWA(Metrics-Weighted Averaging)を提案する。
特に,低損失あるいは後段のチェックポイントがより価値があるという直感の下で,トレーニング損失による重み付けとトレーニングステップによる重み付けについて検討する。
チェックポイント数によらず1つのハイパーパラメータしか必要とせず, 重量分布を調節するペナルティ係数の式を導入する。
3つの微調整タスク(数学的推論、嗜好アライメント、一般的な命令チューニング)の実験は、MWAが一貫して、チェックポイントの単調な一様平均を上回った統合モデルを生成することを示している。
特に、損失重み付けのマージは、ベースラインの統一マージよりも最大5%高いタスク精度を達成し、最終的な個々のチェックポイントのパフォーマンスを上回ります。
これらの結果はPEFTのチェックポイントマージを検証し、計量駆動重み付けヒューリスティックが最小計算オーバーヘッドでモデル性能を効率的に向上できることを示した。
関連論文リスト
- Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。
我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。
DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-26T18:31:14Z) - Efficient Multi-Task Inferencing: Model Merging with Gromov-Wasserstein Feature Alignment [7.436562917907035]
本稿では,Gromov-Wasserstein Scoring Model Merging (GW-SMM)法を提案する。
グロモフ=ワッサーシュタイン距離で測定された特徴分布の類似性に基づいてモデルをマージする。
我々は,人間の知識に対するアプローチとGPT-o1をベースとしたマージ手法の検証を行った。
論文 参考訳(メタデータ) (2025-03-12T19:20:33Z) - Parameter Efficient Merging for Multimodal Large Language Models with Complementary Parameter Adaptation [17.39117429338763]
相補的パラメータ適応を用いたトレーニング不要なパラメータ効率的なマージ手法であるCoPA-Mergingを提案する。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs [48.95875673503714]
多くのタスクで訓練された"ジェネラリスト"モデルをマージすることを研究する。
提案アルゴリズムは,各チェックポイントの重みを線形結合で調整し,最適モデルを生成する。
良いマージは、ほとんどすべてのチェックポイントとゼロでない重みを含む傾向があり、一見して悪い初期チェックポイントでさえ、良い最終マージに寄与することを示している。
論文 参考訳(メタデータ) (2024-12-05T13:12:51Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Revisiting Checkpoint Averaging for Neural Machine Translation [44.37101354412253]
チェックポイント平均化は、収束ニューラルネットワーク翻訳モデルの性能を高めるためのシンプルで効果的な方法である。
本研究では,チェックポイント平均化の概念を再考し,いくつかの拡張について考察する。
論文 参考訳(メタデータ) (2022-10-21T08:29:23Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。