論文の概要: ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation
- arxiv url: http://arxiv.org/abs/2603.04436v1
- Date: Thu, 19 Feb 2026 05:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.212958
- Title: ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation
- Title(参考訳): ZorBA:不均一ブロック活性化によるLDMのゼロ次フェデレーション微調整
- Authors: Chuiyang Meng, Ming Tang, Vincent W. S. Wong,
- Abstract要約: 大型言語モデルのファインチューニング(LLM)により、分散クライアント間の協調的なチューニングが可能になる。
ZorBAは、ゼロ階最適化に基づくフェデレーションファインチューニングフレームワークで、不均一なブロックアクティベーションを備えている。
本稿では,ブロックアクティベーション決定が収束率とVRAM使用量に与える影響を理論的に解析する。
- 参考スコア(独自算出の注目度): 19.973768722251393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated fine-tuning of large language models (LLMs) enables collaborative tuning across distributed clients. However, due to the large size of LLMs, local updates in federated learning (FL) may incur substantial video random-access memory (VRAM) usage. Moreover, frequent model exchange may lead to significant communication overhead. To tackle these challenges, in this paper we propose ZorBA, a zeroth-order optimization-based federated fine-tuning framework with heterogeneous block activation. ZorBA leverages zeroth-order optimization to eliminate the storage of gradients at the clients by forward passes. ZorBA includes a heterogeneous block activation mechanism in which the central server allocates different subsets of transformer blocks to clients in order to accelerate the convergence rate and reduce the VRAM usage. Furthermore, ZorBA utilizes shared random seeds and the finite differences of gradients in order to reduce the communication overhead. We conduct theoretical analysis to characterize the effect of block activation decisions on the convergence rate and VRAM usage. To jointly enhance the convergence rate and reduce the VRAM usage, we formulate an optimization problem to optimize the block activation decisions. We propose an $ε$-constraint lexicographic algorithm to solve this problem. Experimental results show that ZorBA outperforms three federated fine-tuning baselines in VRAM usage by up to 62.41% and incurs a low communication overhead.
- Abstract(参考訳): 大型言語モデルのファインチューニング(LLM)により、分散クライアント間の協調的なチューニングが可能になる。
しかし、LLMの規模が大きいため、フェデレートドラーニング(FL)における局所的な更新は、ビデオランダムアクセスメモリ(VRAM)の使用をかなり引き起こす可能性がある。
さらに、頻繁なモデル交換は、大きな通信オーバーヘッドを引き起こす可能性がある。
そこで本稿では,ゼロ階最適化に基づくフェデレーションファインチューニングフレームワークZorBAを提案する。
ZorBAはゼロ階最適化を利用して、フォワードパスによるクライアントの勾配の保存を除去する。
ZorBAは、集中サーバが収束率を加速し、VRAM使用量を減らすために、トランスフォーマーブロックの異なるサブセットをクライアントに割り当てる異種ブロックアクティベーション機構を含む。
さらに、ZorBAは共有ランダムシードと勾配の有限差を利用して通信オーバーヘッドを低減する。
本稿では,ブロックアクティベーション決定が収束率とVRAM使用量に与える影響を理論的に解析する。
コンバージェンス率を向上し,VRAM使用量を削減するため,ブロックアクティベーション決定を最適化するために最適化問題を定式化する。
この問題を解決するために,ε$-constraint lexicographyアルゴリズムを提案する。
実験結果から,ZorBAはVRAM使用率を最大62.41%向上し,通信オーバーヘッドの低減を図っている。
関連論文リスト
- From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs [58.640039233470766]
原理的AR-to-block-diffusion適応は,DLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることを示す。
NBDiff-7B(BaseとInstruct)は、長文のモデリングと推論機能を継承し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-07T10:28:21Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Don't Be Greedy, Just Relax! Pruning LLMs via Frank-Wolfe [61.68406997155879]
State-of-the-art Large Language Model (LLM) プルーニング手法は階層的に動作し、階層ごとのプルーニングエラーを最小限に抑え、完全な再トレーニングを回避する。
既存の手法は、刈り上げ対象の重量相互作用を無視する欲求凸に依存する。
提案手法は, 層ごとのプルーニング誤差を大幅に低減し, 最先端のGPTアーキテクチャにおいて高いベースラインを達成し, メモリ効率を保っている。
論文 参考訳(メタデータ) (2025-10-15T16:13:44Z) - BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。
UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文 参考訳(メタデータ) (2025-07-23T01:51:48Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Federated Sketching LoRA: A Flexible Framework for Heterogeneous Collaborative Fine-Tuning of LLMs [37.03583502049329]
リソース制約のあるクライアント上での微調整大型言語モデル(LLM)は依然として難しい問題である。
最近の研究は、クライアントモデルのサイズやデータ不足に伴う課題を軽減するために、フェデレートされた微調整によるローランク適応(LoRA)技術と融合している。
サーバが保持するグローバルなLoRAモジュールのサブマトリクスをクライアントが更新できるように,スケッチ機構を活用したフェデレートスケッチLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-31T18:44:35Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。