論文の概要: HOSL: Hybrid-Order Split Learning for Memory-Constrained Edge Training
- arxiv url: http://arxiv.org/abs/2601.10940v1
- Date: Fri, 16 Jan 2026 01:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.32957
- Title: HOSL: Hybrid-Order Split Learning for Memory-Constrained Edge Training
- Title(参考訳): HOSL: メモリ制約エッジトレーニングのためのハイブリッドオーダー分割学習
- Authors: Aakriti, Zhe Li, Dandan Liang, Chao Huang, Rui Li, Haibo Yang,
- Abstract要約: Split Learning (SL)は、リソース制約のあるエッジデバイスと計算量の多いサーバの間で、大規模言語モデル(LLM)の協調的なトレーニングを可能にする。
既存のSLシステムは1次最適化(FO)に依存しており、クライアントはバックプロパゲーションのアクティベーションなどの中間量を保存する必要がある。
本稿では,メモリ効率と最適化効率の基本的なトレードオフに対処する,新しいハイブリットオーダー分割学習フレームワークHOSLを提案する。
- 参考スコア(独自算出の注目度): 10.638558734881242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Split learning (SL) enables collaborative training of large language models (LLMs) between resource-constrained edge devices and compute-rich servers by partitioning model computation across the network boundary. However, existing SL systems predominantly rely on first-order (FO) optimization, which requires clients to store intermediate quantities such as activations for backpropagation. This results in substantial memory overhead, largely negating benefits of model partitioning. In contrast, zeroth-order (ZO) optimization eliminates backpropagation and significantly reduces memory usage, but often suffers from slow convergence and degraded performance. In this work, we propose HOSL, a novel Hybrid-Order Split Learning framework that addresses this fundamental trade-off between memory efficiency and optimization effectiveness by strategically integrating ZO optimization on the client side with FO optimization on the server side. By employing memory-efficient ZO gradient estimation at the client, HOSL eliminates backpropagation and activation storage, reducing client memory consumption. Meanwhile, server-side FO optimization ensures fast convergence and competitive performance. Theoretically, we show that HOSL achieves a $\mathcal{O}(\sqrt{d_c/TQ})$ rate, which depends on client-side model dimension $d_c$ rather than the full model dimension $d$, demonstrating that convergence improves as more computation is offloaded to the server. Extensive experiments on OPT models (125M and 1.3B parameters) across 6 tasks demonstrate that HOSL reduces client GPU memory by up to 3.7$\times$ compared to the FO method while achieving accuracy within 0.20%-4.23% of this baseline. Furthermore, HOSL outperforms the ZO baseline by up to 15.55%, validating the effectiveness of our hybrid strategy for memory-efficient training on edge devices.
- Abstract(参考訳): Split Learning (SL)は、リソース制約のあるエッジデバイスと計算量の多いサーバ間で、ネットワーク境界を越えてモデル計算を分割することで、大規模言語モデル(LLM)の協調的なトレーニングを可能にする。
しかし、既存のSLシステムは主に1次最適化(FO)に依存しており、クライアントはバックプロパゲーションのアクティベーションなどの中間量を保存する必要がある。
これにより、かなりのメモリオーバーヘッドが発生し、主にモデルのパーティショニングの利点を否定する。
対照的に、ゼロオーダー最適化(ZO)はバックプロパゲーションを排除し、メモリ使用量を大幅に削減するが、しばしば収束が遅く、性能が劣化する。
本研究では、クライアント側でZO最適化を戦略的に統合し、サーバ側でFO最適化を行うことにより、メモリ効率と最適化効率の基本的なトレードオフに対処する、新しいハイブリッドオーダー分割学習フレームワークHOSLを提案する。
クライアントでメモリ効率の高いZO勾配推定を利用することで、HOSLはバックプロパゲーションとアクティベーションストレージを排除し、クライアントのメモリ消費を削減できる。
一方、サーバ側のFO最適化により、高速な収束と競争性能が保証される。
理論的には、HOSLがクライアント側モデル次元$d_c$に依存する$\mathcal{O}(\sqrt{d_c/TQ})$ rateを達成することを示す。
OPTモデル(125Mと1.3Bパラメータ)の6つのタスクにわたる大規模な実験により、HOSLはクライアントGPUのメモリをFO法と比較して最大3.7$\times$で削減し、精度は0.20%-4.23%である。
さらに、HOSLはZOベースラインを最大15.55%上回り、エッジデバイス上でのメモリ効率のトレーニングにおけるハイブリッド戦略の有効性を検証する。
関連論文リスト
- Lean Clients, Full Accuracy: Hybrid Zeroth- and First-Order Split Federated Learning [13.865545923124055]
Split Federated Learning (SFL)は、リソース制約のあるエッジデバイスと計算量の多いサーバとの協調トレーニングを可能にする。
通信オーバーヘッドはSFLの中心的な問題であり、補助的なネットワークで緩和することができる。
HERON-SFLは、サーバ上の一階(FO)最適化を維持しながら、ローカルクライアントトレーニングのためのゼロ階(ZO)最適化を統合する。
論文 参考訳(メタデータ) (2026-01-14T02:17:49Z) - FOAM: Blocked State Folding for Memory-Efficient LLM Training [41.8909496809588]
大規模言語モデル (LLM) は, パラメータ数と広範囲なトレーニングデータにより, 顕著な性能を示した。
しかしながら、これらのスケールは、特にAdamのようなメモリ集約型を使用する場合、トレーニング中に大きなメモリボトルネックを引き起こす。
本稿では,ブロックワイズ方式で状態を圧縮し,勾配補正を組み込んで損失情報を復元するFolded with Approximate Moment (FOAM)を提案する。
論文 参考訳(メタデータ) (2025-12-08T02:48:27Z) - FSL-SAGE: Accelerating Federated Split Learning via Smashed Activation Gradient Estimation [13.034619943612311]
フェデレートラーニング(FL)やスプリットラーニング(SL)のような協調学習手法は、生データを共有せずに分散機械学習を可能にする。
補助モデルを用いてサーバ側勾配フィードバックを推定する新しいフェデレーション分割学習アルゴリズムであるFSL-SAGEを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:18:59Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。