論文の概要: Scaling Law Analysis in Federated Learning: How to Select the Optimal Model Size?
- arxiv url: http://arxiv.org/abs/2511.12188v1
- Date: Sat, 15 Nov 2025 12:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.662451
- Title: Scaling Law Analysis in Federated Learning: How to Select the Optimal Model Size?
- Title(参考訳): フェデレートラーニングにおける法則のスケーリング:最適なモデルサイズを選択するには?
- Authors: Xuanyu Chen, Nan Yang, Shuai Wang, Dong Yuan,
- Abstract要約: 高品質で精度の高いトレーニングデータの枯渇に対する懸念が高まっている。
Federated Learningにおけるトレーニングデータセットの分散化は、大規模なモデルをスケールする上での課題を導入している。
本稿では,従来のモデルスケーリング体験をフェデレートした学習シナリオに一般化するための洞察を提供する。
- 参考スコア(独自算出の注目度): 12.791994483385409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of large language models (LLMs) has sparked a growing interest in training large-scale models. As the model size continues to scale, concerns are growing about the depletion of high-quality, well-curated training data. This has led practitioners to explore training approaches like Federated Learning (FL), which can leverage the abundant data on edge devices while maintaining privacy. However, the decentralization of training datasets in FL introduces challenges to scaling large models, a topic that remains under-explored. This paper fills this gap and provides qualitative insights on generalizing the previous model scaling experience to federated learning scenarios. Specifically, we derive a PAC-Bayes (Probably Approximately Correct Bayesian) upper bound for the generalization error of models trained with stochastic algorithms in federated settings and quantify the impact of distributed training data on the optimal model size by finding the analytic solution of model size that minimizes this bound. Our theoretical results demonstrate that the optimal model size has a negative power law relationship with the number of clients if the total training compute is unchanged. Besides, we also find that switching to FL with the same training compute will inevitably reduce the upper bound of generalization performance that the model can achieve through training, and that estimating the optimal model size in federated scenarios should depend on the average training compute across clients. Furthermore, we also empirically validate the correctness of our results with extensive training runs on different models, network settings, and datasets.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の成功により、大規模モデルのトレーニングへの関心が高まっている。
モデルのサイズが拡大し続ければ、高品質で正確なトレーニングデータの枯渇が懸念されるようになる。
これにより、フェデレートラーニング(FL)のようなトレーニングアプローチは、プライバシーを維持しながらエッジデバイス上の豊富なデータを活用することができる。
しかし、FLにおけるトレーニングデータセットの分散化は、未調査のトピックである大規模モデルをスケールする上での課題を導入している。
本稿では、このギャップを埋め、以前のモデルスケーリング体験をフェデレーション学習シナリオに一般化するための質的な洞察を提供する。
具体的には、確率的アルゴリズムで訓練されたモデルの一般化誤差に対するPAC-Bayes(おそらく略正ベイズ的)の上界をフェデレートした設定で導出し、この境界を最小化するモデルサイズの解析解を求めることにより、分散トレーニングデータの最適モデルサイズへの影響を定量化する。
理論的な結果から、最適モデルサイズは、総トレーニング計算が変化しない場合、クライアント数と負のパワー則関係を持つことが示された。
さらに、同じトレーニング計算でFLに切り替えることで、モデルがトレーニングによって達成できる一般化性能の上限が必然的に減少し、フェデレートされたシナリオにおける最適なモデルサイズを推定することは、クライアント間の平均トレーニング計算に依存する。
さらに、異なるモデル、ネットワーク設定、データセットで広範なトレーニングを実行することで、結果の正しさを実証的に検証します。
関連論文リスト
- Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文 参考訳(メタデータ) (2025-08-20T17:54:21Z) - Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。
また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文 参考訳(メタデータ) (2025-05-22T05:50:19Z) - The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。