論文の概要: MSfusion: A Dynamic Model Splitting Approach for Resource-Constrained Machines to Collaboratively Train Larger Models
- arxiv url: http://arxiv.org/abs/2407.03622v1
- Date: Thu, 4 Jul 2024 04:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 19:21:33.439150
- Title: MSfusion: A Dynamic Model Splitting Approach for Resource-Constrained Machines to Collaboratively Train Larger Models
- Title(参考訳): MSfusion:大規模モデルの協調学習のための資源制約マシンの動的モデル分割アプローチ
- Authors: Jin Xie, Songze Li,
- Abstract要約: 我々は,資源制約マシン上で大規模モデルを学習するための,効果的かつ効率的な協調学習フレームワークであるMSfusionを紹介する。
各トレーニングラウンドでは、各参加者は、ローカルデータをトレーニングするためにモデルパラメータのサブセットを割り当て、共通のパラメータ上の他のピアのサブモデルで集約される。
画像およびNLPタスクの実験は、大規模モデルのトレーニングにおいて、MSfusionの性能と効率において重要な利点を示す。
- 参考スコア(独自算出の注目度): 16.012249716875132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training large models requires a large amount of data, as well as abundant computation resources. While collaborative learning (e.g., federated learning) provides a promising paradigm to harness collective data from many participants, training large models remains a major challenge for participants with limited resources like mobile devices. We introduce MSfusion, an effective and efficient collaborative learning framework, tailored for training larger models on resourceconstraint machines through model splitting. Specifically, a double shifting model splitting scheme is designed such that in each training round, each participant is assigned a subset of model parameters to train over local data, and aggregates with sub-models of other peers on common parameters. While model splitting significantly reduces the computation and communication costs of individual participants, additional novel designs on adaptive model overlapping and contrastive loss functions help MSfusion to maintain training effectiveness, against model shift across participants. Extensive experiments on image and NLP tasks illustrate significant advantages of MSfusion in performance and efficiency for training large models, and its strong scalability: computation cost of each participant reduces significantly as the number of participants increases.
- Abstract(参考訳): 大きなモデルのトレーニングには大量のデータと豊富な計算リソースが必要です。
コラボレーティブラーニング(フェデレートラーニングなど)は、多くの参加者からの集合データを活用するための有望なパラダイムを提供する一方で、モバイルデバイスのような限られたリソースを持つ参加者にとって、大規模なモデルのトレーニングは依然として大きな課題である。
モデル分割による資源制約マシン上での大規模モデルのトレーニングに適した,効率的かつ効率的な協調学習フレームワークであるMSfusionを紹介する。
具体的には、各トレーニングラウンドにおいて、各参加者は、局所データをトレーニングするためにモデルのパラメータのサブセットを割り当て、共通のパラメータ上の他のピアのサブモデルと集約するように、ダブルシフトモデル分割スキームを設計する。
モデル分割は個々の参加者の計算と通信コストを大幅に削減するが、適応モデルオーバーラップと対照的な損失関数に関する新たな設計は、MSfusionが参加者間のモデルシフトに対してトレーニング効率を維持するのに役立つ。
画像およびNLPタスクの広範囲にわたる実験は、大規模モデルのトレーニングにおけるMSfusionの性能と効率の顕著な利点を示し、その強力なスケーラビリティを示す: 参加者の計算コストは、参加者の数が増えるにつれて大幅に減少する。
関連論文リスト
- Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - AdapterFL: Adaptive Heterogeneous Federated Learning for
Resource-constrained Mobile Computing Systems [24.013937378054074]
Federated Learning (FL)は、データ共有なしで大規模分散クライアントの協調学習を可能にする。
モバイルコンピューティングシステムは、協調学習のために小さな低パフォーマンスモデルしか利用できない。
我々は、大規模な異種モバイルデバイスの協調訓練を適応的に行うために、モデル再組み立て戦略を用いる。
論文 参考訳(メタデータ) (2023-11-23T14:42:43Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Federated Pruning: Improving Neural Network Efficiency with Federated
Learning [24.36174705715827]
フェデレーテッド・プルーニング(Federated Pruning)は、フェデレーテッド・セッティングの下で縮小モデルのトレーニングを行う。
異なる刈り取り方式を探索し,提案手法の有効性の実証的証拠を提供する。
論文 参考訳(メタデータ) (2022-09-14T00:48:37Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。