論文の概要: Reconciling Hessian-Informed Acceleration and Scalar-Only Communication for Efficient Federated Zeroth-Order Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.02370v1
- Date: Tue, 03 Jun 2025 02:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.382754
- Title: Reconciling Hessian-Informed Acceleration and Scalar-Only Communication for Efficient Federated Zeroth-Order Fine-Tuning
- Title(参考訳): 高速フェデレートゼロ次ファインチューニングのためのヘシアンインフォームド加速度とスカラーオンリー通信の再構成
- Authors: Zhe Li, Bicheng Ying, Zidong Liu, Chaosheng Dong, Haibo Yang,
- Abstract要約: HiSo は Hessian-informed zeroth-order Optimization と Scalar-only communication による高速なファインチューニング手法である。
HiSoはコンバージェンス速度と通信効率の両方で既存のZO法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.73877955614998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent dimension-free communication frameworks in Federated Learning (FL), such as DeComFL, significantly reduce per-round communication by transmitting only scalars via zeroth-order stochastic gradient descent (ZO-SGD). This method is particularly advantageous for federated fine-tuning of Large Language Models (LLMs). Yet, the high variance in ZO gradient estimation typically leads to slow convergence. Although leveraging Hessian information is known to enhance optimization speed, integrating this into FL presents significant challenges. These include clients' restrictions on local data and the critical need to maintain the dimension-free communication property. To overcome this limitation, we first introduce a generalized scalar-only communication FL framework that decouples dimension-free communication from standard ZO-SGD, enabling the integration of more advanced optimization strategies. Building on this framework, we propose HiSo, a fast federated fine-tuning method via Hessian-informed zeroth-order optimization and Scalar-only communication. Specifically, it leverages global curvature information to accelerate convergence while preserving the same minimal communication cost per round. Theoretically, we establish convergence guarantees that are independent of the global Lipschitz constant, and further show that HiSo achieves faster rates when the global Hessian exhibits a low effective rank -- a common phenomenon in LLMs. Extensive experiments on benchmark datasets and LLM fine-tuning tasks confirm that HiSo significantly outperforms existing ZO-based FL methods in both convergence speed and communication efficiency.
- Abstract(参考訳): フェデレート学習(FL)における最近の非次元コミュニケーションフレームワークであるDeComFLは、ゼロ階確率勾配勾配(ZO-SGD)を介してスカラーのみを送信することで、ラウンド間通信を著しく削減している。
この手法はLarge Language Models (LLMs) のファインチューニングにおいて特に有利である。
しかし、ZO勾配推定の高分散は典型的には収束を遅くする。
Hessian情報を活用することで最適化速度が向上することが知られているが、FLへの統合は大きな課題である。
これには、ローカルデータに対するクライアントの制限や、ディメンションフリーな通信特性を維持するための重要な必要性が含まれる。
この制限を克服するために、我々はまず、標準ZO-SGDから次元自由通信を分離する一般化されたスカラー通信FLフレームワークを導入し、より高度な最適化戦略の統合を可能にした。
このフレームワークを基盤として,Hessian-informed zeroth-order Optimization と Scalar-only communication を用いた高速なファインチューニング手法 HiSo を提案する。
具体的には、グローバルな曲率情報を活用して収束を加速し、ラウンド毎に同じ最小限の通信コストを節約する。
理論的には、大域リプシッツ定数とは独立な収束保証を確立し、さらに、大域ヘッセンが低い有効ランクを示すとき、HiSoがより高速な速度を達成することを示す。
ベンチマークデータセットとLLM微調整タスクに関する大規模な実験により、HiSoが既存のZOベースのFL法を収束速度と通信効率の両方で大幅に上回っていることが確認された。
関連論文リスト
- Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models [54.02863371927658]
大規模言語モデル(LLM)は多くの現実世界のアプリケーションで必須となっている。
フェレットは、ランダム性を共有する最初の一階法である。
高い計算効率、通信オーバーヘッドの低減、高速収束を実現している。
論文 参考訳(メタデータ) (2024-09-10T07:28:13Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。
プルーニングプロセス自体を最適化するためには、パラメータの代わりにサーバとクライアントの間でしきい値だけが通信される。
グローバルしきい値は、集約されたパラメータの重要度を抽出することで、モデルパラメータの更新に使用される。
論文 参考訳(メタデータ) (2024-06-01T13:10:35Z) - Achieving Dimension-Free Communication in Federated Learning via Zeroth-Order Optimization [15.73877955614998]
本稿では,クライアント間のスカラー値を一定数送信することで,通信コストを$mathscrO(d)$から$mathscrO(d)$に削減する新しい通信アルゴリズムであるDeComFLを提案する。
古典的なディープラーニングトレーニングと大規模言語モデルの微調整の両方を含む経験的評価は、通信オーバーヘッドを大幅に削減することを示している。
論文 参考訳(メタデータ) (2024-05-24T18:07:05Z) - FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models [56.21666819468249]
フェデレートラーニング(FL)は、異種クライアントがローカルにプライベートデータを処理し、中央サーバーと対話できるというユニークな特徴から、注目を集めている。
我々は,emphScaffnewに実用的で効果的な圧縮を統合し,通信効率を向上するFedComLocを紹介した。
論文 参考訳(メタデータ) (2024-03-14T22:29:59Z) - On the Convergence of Zeroth-Order Federated Tuning for Large Language Models [36.277423093218275]
Federated Learning and Large Language Models (LLMs) は、プライバシを保存する自然言語処理の新しい時代を支えている。
メモリ効率のゼロ階最適化は、FedMeZOと呼ばれる相乗効果である。
LLMの文脈でFedMeZOの理論的基盤を最初に検討した。
論文 参考訳(メタデータ) (2024-02-08T18:56:40Z) - Disentangled Federated Learning for Tackling Attributes Skew via
Invariant Aggregation and Diversity Transferring [104.19414150171472]
属性は、クライアント間の一貫した最適化方向から、現在の連邦学習(FL)フレームワークを歪めます。
本稿では,ドメイン固有属性とクロス不変属性を2つの補足枝に分離するために,非絡み付きフェデレーション学習(DFL)を提案する。
実験により、DFLはSOTA FL法と比較して高い性能、より良い解釈可能性、より高速な収束率でFLを促進することが確認された。
論文 参考訳(メタデータ) (2022-06-14T13:12:12Z) - Wireless Federated Learning with Limited Communication and Differential
Privacy [21.328507360172203]
本稿では,空力計算(AirComp)に基づくフェデレーション学習(FL)モデルにおいて,リモートユーザにおけるローカルデータセットの効率的な通信と差分プライバシー(DP)における次元性低減の役割について検討する。
論文 参考訳(メタデータ) (2021-06-01T15:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。