論文の概要: Shard the Gradient, Scale the Model: Serverless Federated Aggregation via Gradient Partitioning
- arxiv url: http://arxiv.org/abs/2604.22072v1
- Date: Thu, 23 Apr 2026 20:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.267762
- Title: Shard the Gradient, Scale the Model: Serverless Federated Aggregation via Gradient Partitioning
- Title(参考訳): Shard the Gradient, Scale the Model: Gradient Partitioningによるサーバレスフェデレーション集約
- Authors: Amine Barrak,
- Abstract要約: サーバレスプラットフォーム上のフェデレーション学習(FL)アグリゲーションは、スケーラビリティの厳しい天井に直面している。
本稿では、勾配テンソルをMシャードに分割するGradsShardingを提案する。
GradsShardingは、サーバーレスメモリの天井を越えてデプロイ可能な唯一のアーキテクチャであることを示す。
- 参考スコア(独自算出の注目度): 9.340611077939828
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Federated learning (FL) aggregation on serverless platforms faces a hard scalability ceiling: existing architectures (lambda-FL, LIFL) partition clients across aggregators, but every aggregator must hold the complete model gradient in memory. When gradients exceed the per-function memory limit (e.g., 10 GB on AWS Lambda), aggregation becomes infeasible regardless of tree depth or branching factor. We propose GradsSharding, which instead partitions the gradient tensor into M shards, each averaged independently by a serverless function that receives contributions from all clients. Because FedAvg averaging is element-wise, this produces bit-identical results to tree-based approaches, so model accuracy is invariant by construction. Per-function memory is bounded at O(|θ|/M), independent of client count, enabling aggregation of arbitrarily large models. We evaluate GradsSharding against lambda-FL and LIFL through HPC experiments and real AWS Lambda deployments across model sizes from 43 MB to 5 GB. Results show a cost crossover at approximately 500 MB gradient size, 2.7x cost reduction at VGG-16 scale, and that GradsSharding is the only architecture that remains deployable beyond the serverless memory ceiling.
- Abstract(参考訳): 既存のアーキテクチャ(ラムダ-FL、LIFL)は、アグリゲータ間でクライアントを分割するが、すべてのアグリゲータは、メモリの完全なモデル勾配を保持する必要がある。
グラデーションが機能毎のメモリ制限(AWS Lambdaの10GBなど)を超えると、集約はツリーの深さや分岐係数に関わらず不可能になる。
代わりに、勾配テンソルをMシャードに分割するGradsShardingを提案する。
FedAvg平均化は要素ワイドであるため、木に基づくアプローチではビット識別結果が生成されるため、モデル精度は構成によって不変である。
関数ごとのメモリはクライアント数に依存しないO(|θ|/M)でバウンドされ、任意の大きなモデルのアグリゲーションが可能である。
HPCの実験と、43MBから5GBまでのモデルサイズにわたる実際のAWS Lambdaデプロイメントを通じて、GradsShardingとlambda-FLとLIFLを評価した。
結果は、約500MBの勾配サイズでコストクロスオーバーし、VGG-16スケールで2.7倍のコスト削減を実現し、GradsShardingがサーバーレスメモリ天井を越えてデプロイ可能な唯一のアーキテクチャであることを示している。
関連論文リスト
- Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - MetaCluster: Enabling Deep Compression of Kolmogorov-Arnold Network [8.780976521229741]
Kolmogorov-Arnold Networks (KAN) はスカラーウェイトを基底係数のエッジベクトルに置き換える。
精度を犠牲にすることなく高圧縮性を実現するフレームワークであるMetaClusterを提案する。
論文 参考訳(メタデータ) (2025-10-21T21:58:15Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - Federated Learning over Hierarchical Wireless Networks: Training Latency Minimization via Submodel Partitioning [15.311309249848739]
階層型独立サブモデルトレーニング(Hierarchical independent submodel training、HIST)は、階層型クラウド-エッジ-クライアントネットワークにおけるこれらの問題に対処することを目的とした新しいFL方法論である。
本研究では,HISTを空気上計算(AirComp)で拡張することにより,エッジセル上でのモデルアグリゲーションの効率をより高めることができることを示す。
論文 参考訳(メタデータ) (2023-10-27T04:42:59Z) - Subspace based Federated Unlearning [75.90552823500633]
フェデレート・アンラーニング(FL)は、ユーザが忘れられる権利を満たすために、特定のターゲットクライアントのFLへの貢献を取り除くことを目的としている。
既存のフェデレートされた未学習アルゴリズムでは、パラメータの更新履歴をサーバに格納する必要がある。
そこで我々は,SFUと呼ばれる,単純なyet効率のサブスペースに基づくフェデレーションアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T04:29:44Z) - BAFFLE: A Baseline of Backpropagation-Free Federated Learning [71.09425114547055]
フェデレートラーニング(FL)は、分散クライアントがローカルデータを共有せずにサーバモデルをまとめて訓練する一般的な原則である。
我々は、バックプロパゲーションを複数のフォワードプロセスに置き換えて勾配を推定する、BAFFLEと呼ばれる、バックプロパゲーションフリーなフェデレーション学習を開発する。
BAFFLEは、1)メモリ効率が高く、アップロード帯域幅に適しており、2)推論のみのハードウェア最適化とモデル量子化やプルーニングと互換性があり、3)信頼できる実行環境に適している。
論文 参考訳(メタデータ) (2023-01-28T13:34:36Z) - Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文 参考訳(メタデータ) (2020-12-14T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。