論文の概要: Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation
- arxiv url: http://arxiv.org/abs/2410.08371v1
- Date: Thu, 10 Oct 2024 20:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:46:24.203215
- Title: Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation
- Title(参考訳): コンテナにおけるマージ:DAM(Dariable Adaptive Merging)と平均化から自動化への道
- Authors: Thomas Gauthier-Caron, Shamane Siriwardhana, Elliot Stein, Malikeh Ehghaghi, Charles Goddard, Mark McQuade, Jacob Solawetz, Maxime Labonne,
- Abstract要約: 本稿では,モデルマージ手法を複雑度の範囲にわたって検討する。
本稿では,効率よく適応的なマージ手法である微分適応マージ(DAM)を導入する。
以上の結果から,モデル類似度が高い場合,モデルソープのような単純な平均化手法でさえ競争力を発揮することが明らかとなった。
- 参考スコア(独自算出の注目度): 0.9084344604313794
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: By merging models, AI systems can combine the distinct strengths of separate language models, achieving a balance between multiple capabilities without requiring substantial retraining. However, the integration process can be intricate due to differences in training methods and fine-tuning, typically necessitating specialized knowledge and repeated refinement. This paper explores model merging techniques across a spectrum of complexity, examining where automated methods like evolutionary strategies stand compared to hyperparameter-driven approaches such as DARE, TIES-Merging and simpler methods like Model Soups. In addition, we introduce Differentiable Adaptive Merging (DAM), an efficient, adaptive merging approach as an alternative to evolutionary merging that optimizes model integration through scaling coefficients, minimizing computational demands. Our findings reveal that even simple averaging methods, like Model Soups, perform competitively when model similarity is high, underscoring each technique's unique strengths and limitations. We open-sourced DAM, including the implementation code and experiment pipeline, on GitHub: https://github.com/arcee-ai/DAM.
- Abstract(参考訳): モデルをマージすることで、AIシステムは別々の言語モデルの異なる強みを組み合わせることができ、実質的な再トレーニングを必要とせずに、複数の能力間のバランスを達成することができる。
しかし、訓練方法と微調整の違いにより統合プロセスは複雑になり、通常は専門知識と反復的な洗練が必要である。
本稿では,DAREやTIES-Mergingといったハイパーパラメータ駆動手法や,モデル・スープのようなシンプルな手法と比較して,進化戦略のような自動手法がどこにあるかを検討する。
さらに、拡張係数によるモデル統合を最適化し、計算要求を最小化する進化的マージの代替として、効率よく適応的なマージ手法である微分可能アダプティブマージ(DAM)を導入する。
この結果から,モデル・スープのような単純な平均化手法でさえ,モデル類似度が高い場合に競争力を発揮し,それぞれのテクニックの強みと限界を裏付けることがわかった。
実装コードと試験パイプラインを含むDAMをGitHubでオープンソースとして公開しています。
関連論文リスト
- Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。