論文の概要: Mitigating Non-IID Drift in Zeroth-Order Federated LLM Fine-Tuning with Transferable Sparsity
- arxiv url: http://arxiv.org/abs/2506.03337v1
- Date: Tue, 03 Jun 2025 19:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.02635
- Title: Mitigating Non-IID Drift in Zeroth-Order Federated LLM Fine-Tuning with Transferable Sparsity
- Title(参考訳): 転写性スペーサを有する無段フェデレーションLDMファインチューニングにおける非IIDドリフトの緩和
- Authors: Yide Ran, Wentao Guo, Jingwei Sun, Yanzhou Pan, Xiaodong Yu, Hao Wang, Jianwen Xie, Yiran Chen, Denghui Zhang, Zhaozhuo Xu,
- Abstract要約: フェデレートラーニング(Federated Learning)は、分散化された非独立型クライアントと独立型分散型クライアント(Non-IID)をまたいだ、大規模言語モデル(LLM)の協調的な微調整を可能にする。
Meerkat は、フェデレート LLM ファインチューニング用に設計されたスパースゼロ階最適化 (ZO) 手法である。
Meerkatは優れた通信効率を実現し、コスト効率の高い高周波同期を実現する。
- 参考スコア(独自算出の注目度): 30.075631058793466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Learning enables collaborative fine-tuning of Large Language Models (LLMs) across decentralized Non-Independent and Identically Distributed (Non-IID) clients, but such models' massive parameter sizes lead to significant memory and communication challenges. This work introduces Meerkat, a sparse zeroth-order optimization (ZO) method designed for federated LLM fine-tuning. By limiting fine-tuning to a transferable, static, extremely sparse subset of parameters, Meerkat achieves remarkable communication efficiency, enabling cost-effective high-frequency synchronization. With theoretical analysis and experiments, we show that this high-frequency communication effectively mitigates Non-IID data challenges and leads to superior performance compared to full-parameter ZO. Furthermore, experiment results show that Meerkat outperforms existing sparsity baselines with better performance at the same communication frequency. To further handle Non-IID drift, Meerkat leverages traceable local updates and forms a virtual path for each client. This virtual path mechanism reveals the GradIP phenomenon: the inner products between LLM pre-training gradients maintained by server and client gradients estimated via ZO converges for extreme Non-IID clients but oscillates for IID ones. This distinct behavior provides a signal for identifying clients with extreme data heterogeneity. Using this signal, Meerkat-vp is proposed to analyze GradIP trajectories to identify extreme Non-IID clients and applies early stopping to enhance aggregated model quality. Experiments confirm that Meerkat and Meerkat-vp significantly improve the efficiency and effectiveness of ZO federated LLM fine-tuning.
- Abstract(参考訳): フェデレートラーニング(Federated Learning)は、分散化された非独立性および独立性のある分散(Non-IID)クライアントをまたいだ大規模言語モデル(LLM)の協調的な微調整を可能にする。
本研究は, LLMファインチューニング用に設計された疎ゼロ階最適化(ZO)手法であるMeerkatを紹介する。
パラメータの転送可能で静的で非常にスパースなサブセットに微調整を制限することにより、Meerkatは驚くべき通信効率を実現し、コスト効率の高い高周波同期を可能にする。
理論的解析と実験により、この高周波通信は非IIDデータ課題を効果的に軽減し、全パラメータZOよりも優れた性能をもたらすことを示す。
さらに,実験結果から,Meerkatは通信周波数が同じである場合,既存の疎度ベースラインよりも優れた性能を示すことが示された。
非IIDドリフトをさらに処理するために、Meerkatはトレース可能なローカル更新を活用し、各クライアントの仮想パスを形成する。
この仮想経路機構はGradIP現象を呈する: LLM事前学習勾配とZOによって推定されるクライアント勾配との間の内部積は、極端な非IIDクライアントに対しては収束するが、IDIでは発振する。
この異なる振る舞いは、クライアントを極端なデータ不均一性で識別するための信号を提供する。
この信号を用いて、Meerkat-vpはGradIPトラジェクトリを分析し、極端な非IIDクライアントを識別し、初期停止を適用して集約されたモデル品質を向上させる。
実験により, Merkat と Meerkat-vp が ZO フェデレート LLM 微調整の効率と効果を著しく向上することが確認された。
関連論文リスト
- Optimizing Asynchronous Federated Learning: A~Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [0.9999629695552195]
我々は、非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために、モデリングと分析を用いる。
非同期FLを最適化するための基本的なトレードオフを特徴付ける。
これらの最適化は精度を10%から30%向上させる。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - Asynchronous Federated Stochastic Optimization for Heterogeneous Objectives Under Arbitrary Delays [0.0]
フェデレートラーニング(FL)は、データを複数の場所に保持するモデル("clients")をセキュアにトレーニングするために提案されている。
FLアルゴリズムの性能を阻害する2つの大きな課題は、階層化クライアントによって引き起こされる長いトレーニング時間と、非イドローカルなデータ分布("client drift")によるモデル精度の低下である。
本稿では,Asynchronous Exact Averaging (AREA, Asynchronous Exact Averaging) を提案する。Asynchronous Exact Averaging (AREA) は,通信を利用して収束を高速化し,拡張性を向上し,クライアント更新頻度の変動によるクライアントのドリフトの補正にクライアントメモリを利用する。
論文 参考訳(メタデータ) (2024-05-16T14:22:49Z) - Strategic Client Selection to Address Non-IIDness in HAPS-enabled FL Networks [21.446301665317378]
非IIDデータの悪影響を軽減するために,属性に基づく新たなクライアント選択手法を提案する。
シミュレーション結果は、FLモデルの精度と収束率を高めるために提案したクライアント選択戦略の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-01-10T18:22:00Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - OFedQIT: Communication-Efficient Online Federated Learning via
Quantization and Intermittent Transmission [7.6058140480517356]
オンライン連合学習(OFL)は、分散ストリーミングデータから非線形関数(またはモデル)のシーケンスを協調的に学習する、有望なフレームワークである。
本稿では、量子化と断続伝送を用いた通信効率の高いOFLアルゴリズム(OFedQIT)を提案する。
分析の結果,OfedQITは優れた学習精度を維持しつつ,OfedAvgの欠点に対処できることがわかった。
論文 参考訳(メタデータ) (2022-05-13T07:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。