論文の概要: Weight Scope Alignment: A Frustratingly Easy Method for Model Merging
- arxiv url: http://arxiv.org/abs/2408.12237v1
- Date: Thu, 22 Aug 2024 09:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:33:24.969242
- Title: Weight Scope Alignment: A Frustratingly Easy Method for Model Merging
- Title(参考訳): ウェイトスコープアライメント: モデルマージのフラストレーションが簡単な方法
- Authors: Yichu Xu, Xin-Chun Li, Le Gan, De-Chuan Zhan,
- Abstract要約: 非I.D.データは平均的なモデル融合にとって大きな課題となる。
本稿では,異なるトレーニング条件下での重量範囲の変化を明らかにする。
幸いなことに、各層のパラメータは基本的にガウス分布に従っており、これは新しく単純な正規化アプローチを刺激している。
- 参考スコア(独自算出の注目度): 40.080926444789085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Merging models becomes a fundamental procedure in some applications that consider model efficiency and robustness. The training randomness or Non-I.I.D. data poses a huge challenge for averaging-based model fusion. Previous research efforts focus on element-wise regularization or neural permutations to enhance model averaging while overlooking weight scope variations among models, which can significantly affect merging effectiveness. In this paper, we reveal variations in weight scope under different training conditions, shedding light on its influence on model merging. Fortunately, the parameters in each layer basically follow the Gaussian distribution, which inspires a novel and simple regularization approach named Weight Scope Alignment (WSA). It contains two key components: 1) leveraging a target weight scope to guide the model training process for ensuring weight scope matching in the subsequent model merging. 2) fusing the weight scope of two or more models into a unified one for multi-stage model fusion. We extend the WSA regularization to two different scenarios, including Mode Connectivity and Federated Learning. Abundant experimental studies validate the effectiveness of our approach.
- Abstract(参考訳): モデルのマージは、モデルの効率性と堅牢性を考えるいくつかのアプリケーションにおいて、基本的な手順となる。
トレーニングランダム性や非I.I.D.データは、平均的なモデル融合にとって大きな課題となる。
従来の研究は、モデル間の重量範囲のバリエーションを見越しながら平均化を強化するために、要素ワイドな正規化やニューラルな置換に重点を置いており、マージの有効性に大きな影響を及ぼす可能性がある。
本稿では,異なるトレーニング条件下での重量範囲の変化を明らかにする。
幸いなことに、各層のパラメータは基本的にガウス分布に従っており、これはウェイトスコープアライメント(WSA)という新しい単純な正規化アプローチを刺激している。
主なコンポーネントは2つある。
1) 対象の重量範囲を活用してモデルのトレーニングプロセスをガイドし、その後のモデルマージにおける重量範囲マッチングを保証する。
2) 2つ以上のモデルの重量範囲を多段モデル融合のための統一モデルに融合させる。
WSAの正規化は、モード接続性(Mode Connectivity)とフェデレートラーニング(Federated Learning)の2つのシナリオに拡張します。
実験結果から, 本手法の有効性を検証した。
関連論文リスト
- Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。
我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - WASH: Train your Ensemble with Communication-Efficient Weight Shuffling, then Average [21.029085451757368]
ウェイト平均化手法は、アンサンブルの一般化と単一モデルの推論速度のバランスをとることを目的としている。
WASHは,最新の画像分類精度を実現するために,平均化のためのモデルアンサンブルを学習するための新しい分散手法である。
論文 参考訳(メタデータ) (2024-05-27T09:02:57Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - FedDRL: A Trustworthy Federated Learning Model Fusion Method Based on Staged Reinforcement Learning [7.846139591790014]
2段階のアプローチに基づく強化学習を用いたモデル融合手法であるFedDRLを提案する。
最初の段階では、我々の手法は悪意あるモデルをフィルタリングし、信頼されたクライアントモデルを選択してモデル融合に参加する。
第2段階では、FedDRLアルゴリズムは信頼されたクライアントモデルの重みを適応的に調整し、最適なグローバルモデルを集約する。
論文 参考訳(メタデータ) (2023-07-25T17:24:32Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。