論文の概要: If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs
- arxiv url: http://arxiv.org/abs/2412.04144v3
- Date: Mon, 03 Feb 2025 20:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:55:46.109358
- Title: If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs
- Title(参考訳): テーマが使えない場合、リサイクルテーマ: スケールでのマージの最適化がパフォーマンスのトレードオフを軽減する
- Authors: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé,
- Abstract要約: 多くのタスクで訓練された"ジェネラリスト"モデルをマージすることを研究する。
提案アルゴリズムは,各チェックポイントの重みを線形結合で調整し,最適モデルを生成する。
良いマージは、ほとんどすべてのチェックポイントとゼロでない重みを含む傾向があり、一見して悪い初期チェックポイントでさえ、良い最終マージに寄与することを示している。
- 参考スコア(独自算出の注目度): 48.95875673503714
- License:
- Abstract: Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging "generalist" models trained on many tasks. We explore merging in the context of large (~100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and the suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in such an optimal model that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.
- Abstract(参考訳): モデルマージはエキスパートモデルを組み合わせることに大きな期待を示しているが、多くのタスクで訓練された"ジェネラリスト"モデルをマージする場合、マージのメリットは明確ではない。
異なるタスク間のトレードオフを示すチェックポイントをリサイクルすることで、大規模な(約100B)モデルのコンテキストにおけるマージを検討する。
このようなチェックポイントはフロンティアモデルを開発する過程でしばしば作成され、最適以下のチェックポイントは通常破棄される。
異なるトレーニング実行から得られたモデルチェックポイントのプール(例えば、異なるステージ、目的物、ハイパーパラメータ、データ混合)が、異なる言語能力(例えば、命令追従とコード生成)のトレードオフを自然に示すことを前提に、これらのサブ最適モデルをパレート最適モデルに再利用できるかどうかを考察する。
最適化アルゴリズムは、各チェックポイントの重みを線形結合で調整し、その結果、個々のモデルとマージベースのベースラインの両方を上回る最適なモデルとなる。
さらに分析したところ、良いマージはゼロでない重みを持つほとんど全てのチェックポイントを含む傾向を示し、一見して悪い初期チェックポイントでさえ良い最終マージに寄与することを示した。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - You Only Merge Once: Learning the Pareto Set of Preference-Aware Model Merging [11.186194228460273]
本稿では,各ベースモデルのタスク上でのマージモデルの性能を目的として扱う,嗜好意識のモデルマージを提案する。
1つのマージプロセスのみにおいて、提案したパラメータ効率構造は、マージされたモデルの集合全体を生成することができる。
提案手法により, 多様なトレードオフモデルを得ることができ, ベースラインの整合性に優れることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:41:14Z) - Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Merging by Matching Models in Task Parameter Subspaces [87.8712523378141]
モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。
我々は、モデルマージに対するこのアプローチが、方程式の線形系を解くとみなす方法を定式化する。
共役勾配法は閉形式解より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-07T14:59:15Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。