論文の概要: Clapping: Removing Per-sample Storage for Pipeline Parallel Distributed Optimization with Communication Compression
- arxiv url: http://arxiv.org/abs/2509.19029v1
- Date: Tue, 23 Sep 2025 14:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.877835
- Title: Clapping: Removing Per-sample Storage for Pipeline Parallel Distributed Optimization with Communication Compression
- Title(参考訳): Clap: 通信圧縮によるパイプライン並列分散最適化のためのサンプル単位のストレージ削除
- Authors: Boao Kong, Xu Huang, Yuqi Xu, Yixuan Liang, Bin Wang, Kun Yuan,
- Abstract要約: 本稿では,パイプライン並列学習のためのLzy SamPlingを用いた通信圧縮アルゴリズムであるClapingを紹介する。
Clapは遅延サンプリング戦略を採用しており、ステップ毎にデータサンプルを再利用し、サンプル単位のメモリバリアを破り、ほとんど時代遅れやオンライントレーニング体制での収束をサポートする。
- 参考スコア(独自算出の注目度): 10.187576314814965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pipeline-parallel distributed optimization is essential for large-scale machine learning but is challenged by significant communication overhead from transmitting high-dimensional activations and gradients between workers. Existing approaches often depend on impractical unbiased gradient assumptions or incur sample-size memory overhead. This paper introduces Clapping, a Communication compression algorithm with LAzy samPling for Pipeline-parallel learnING. Clapping adopts a lazy sampling strategy that reuses data samples across steps, breaking sample-wise memory barrier and supporting convergence in few-epoch or online training regimes. Clapping comprises two variants including Clapping-FC and Clapping-FU, both of which achieve convergence without unbiased gradient assumption, effectively addressing compression error propagation in multi-worker settings. Numerical experiments validate the performance of Clapping across different learning tasks.
- Abstract(参考訳): パイプライン並列分散最適化は、大規模な機械学習には不可欠だが、高次元のアクティベーションと労働者間の勾配の伝達による通信オーバーヘッドが大きな課題となっている。
既存のアプローチは、しばしば非現実的な非バイアスの勾配仮定やサンプルサイズのメモリオーバーヘッドに依存している。
本稿では,パイプライン並列学習のためのLzy SamPlingを用いた通信圧縮アルゴリズムであるClapingを紹介する。
Clapは遅延サンプリング戦略を採用しており、ステップ毎にデータサンプルを再利用し、サンプル単位のメモリバリアを破り、ほとんど時代遅れやオンライントレーニング体制での収束をサポートする。
Clap は Clap-FC と Clap-FU の 2 つの変種から構成される。
数値実験により、異なる学習課題にまたがるClapのパフォーマンスが検証される。
関連論文リスト
- Model Parallelism With Subnetwork Data Parallelism [16.716404770696734]
本稿では,個別の作業者に対して,モデルの小型で構造化された作業をトレーニングすることで,メモリ要求を低減できる新しい手法を提案する。
我々は,各パラメータの均一な表現を保証する原理によって導かれる2つのサブネットワーク構築戦略を評価する。
予備実験では、性能を損なうことなく20~40%のメモリ使用量の削減を実現し、我々のアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-07-11T21:25:11Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Geometry-aware training of factorized layers in tensor Tucker format [6.701651480567394]
重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。
トレーニングの提案は, 元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。
本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。
論文 参考訳(メタデータ) (2023-05-30T14:20:51Z) - Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。
我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文 参考訳(メタデータ) (2021-09-26T05:16:12Z) - On the Utility of Gradient Compression in Distributed Training Systems [9.017890174185872]
本稿では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。
意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。
論文 参考訳(メタデータ) (2021-02-28T15:58:45Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。