論文の概要: Distributed Training under Packet Loss
- arxiv url: http://arxiv.org/abs/2507.07114v1
- Date: Wed, 02 Jul 2025 11:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.116228
- Title: Distributed Training under Packet Loss
- Title(参考訳): パケット損失下における分散トレーニング
- Authors: Erez Weintraub, Ron Banner, Ariel Orda,
- Abstract要約: 信頼性の低いコネクションを利用するとレイテンシが低下するが、パケットを落としてモデルの精度と収束を犠牲にする可能性がある。
そこで本研究では,パケット損失の正確性と収束性を保証する原理的なエンドツーエンドソリューションを提案する。
この研究は、コミュニケーション効率の高いプロトコルと、現代の大規模モデルの訓練で要求される精度と保証のギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 8.613477072763404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art language and vision models are routinely trained across thousands of GPUs, often spanning multiple data-centers, yet today's distributed frameworks still assume reliable connections (e.g., InfiniBand or RoCE). The resulting acknowledgment traffic and retransmissions inflate tail latencies and limit scalability. Leveraging unreliable connections will reduce latency but may sacrifice model accuracy and convergence once packets are dropped. A principled, end-to-end solution that preserves accuracy and convergence guarantees under genuine packet loss has previously been missing. We address this critical gap by introducing a novel distributed training framework capable of operating over unreliable connections, offering unbiased gradient aggregation and bounded parameter drift without modifying model code or optimizers. The key insight is a two-stage defense against missing messages: (i) Unbiased gradient aggregation: each worker reconstructs a consistent gradient estimate from whatever packets arrive, guaranteeing expectation-level correctness; and (ii) Bounded-drift parameter broadcasts: we prove the inter-worker model discrepancy remains O(1) even after arbitrarily many iterations, preventing the unbounded divergence typical of asynchronous setups. Analytical bounds are matched by experiments on the LLAMA2 7B model with 64 GPUs: tolerating 10% random packet loss yields at most 0.8% perplexity change. This work bridges the gap between communication-efficient datacenter protocols and the accuracy and generalization guarantees demanded by modern large-model training, enabling robust, high-throughput learning on commodity or wide-area networks.
- Abstract(参考訳): 最先端の言語とビジョンモデルは、複数のデータセンタにまたがる数千のGPUで定期的にトレーニングされていますが、今日の分散フレームワークでは、信頼性の高い接続(例えば、InfiniBandやRoCE)を前提としています。
結果として、トラフィックと再送信がテールレイテンシを増大させ、スケーラビリティを制限します。
信頼性の低いコネクションを利用するとレイテンシが低下するが、パケットを落としてモデルの精度と収束を犠牲にする可能性がある。
真のパケットロスの下での精度と収束を保証する、原則化されたエンドツーエンドのソリューションは、これまでは欠落していた。
モデルコードやオプティマイザを変更することなく、信頼できない接続を操作できる新しい分散トレーニングフレームワークを導入することで、この重要なギャップに対処する。
重要な洞察は、行方不明のメッセージに対する2段階の防御である。
(i)不偏勾配集計:各作業員は、到着したパケットから一貫した勾配推定値を再構成し、期待レベルの正確性を保証する。
(II)境界ドリフトパラメータブロードキャスト: 任意に複数回繰り返した場合でも、労働者間モデルの相違はO(1)のままであり、非同期セットアップの典型的な非有界発散を防止する。
LLAMA2 7Bモデルと64GPUを用いた実験により解析的バウンダリが一致した: 10%のランダムパケット損失を許容すると、少なくとも0.8%のパープレキシティ変化が発生する。
この研究は、通信効率のよいデータセンタープロトコルと、現代の大規模モデルのトレーニングで要求される精度と一般化の保証のギャップを埋め、コモディティや広域ネットワーク上で堅牢で高スループットの学習を可能にする。
関連論文リスト
- SPIRE: Conditional Personalization for Federated Diffusion Generative Models [7.8583640700306585]
Shared Backbone Personal Identity Representation Embeddings (SPIRE)は、FLで条件付き生成としてクライアント拡散ベースの生成をキャストするフレームワークである。
SPIREは、ネットワークを(i)人口レベルのスコア関数を学習する高容量なグローバルバックボーンと、(ii)ローカルデータ統計を符号化する軽量で学習可能なクライアント埋め込みに分解する。
我々の分析は、クライアントの埋め込みが共有スコアネットワークをパーソナライズするバイアスとしてどのように振舞うかを示唆している。
論文 参考訳(メタデータ) (2025-06-14T01:40:31Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Lightweight Federated Learning with Differential Privacy and Straggler Resilience [19.94124499453864]
フェデレートラーニング(FL)は、生データの代わりにモデルパラメータ交換を通じて協調的なモデルトレーニングを可能にする。
パラメータ交換による潜在的な推論攻撃を避けるため、差分プライバシー(DP)は様々な攻撃に対して厳格な保証を提供する。
提案するLightDP-FLは,信頼できないピアやサーバに対して,証明可能なDPを保証する,新しい軽量なスキームである。
論文 参考訳(メタデータ) (2024-12-09T00:54:00Z) - Federated Smoothing Proximal Gradient for Quantile Regression with Non-Convex Penalties [3.269165283595478]
IoT(Internet-of-Things)の分散センサーは、大量のスパースデータを生成する。
本稿では, 滑らか化機構をそのビューに統合し, 精度と計算速度を両立させる, 結合型滑らか化近位勾配(G)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-10T21:50:19Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Asynchronous Federated Stochastic Optimization for Heterogeneous Objectives Under Arbitrary Delays [0.0]
フェデレートラーニング(FL)は、データを複数の場所に保持するモデル("clients")をセキュアにトレーニングするために提案されている。
FLアルゴリズムの性能を阻害する2つの大きな課題は、階層化クライアントによって引き起こされる長いトレーニング時間と、非イドローカルなデータ分布("client drift")によるモデル精度の低下である。
本稿では,Asynchronous Exact Averaging (AREA, Asynchronous Exact Averaging) を提案する。Asynchronous Exact Averaging (AREA) は,通信を利用して収束を高速化し,拡張性を向上し,クライアント更新頻度の変動によるクライアントのドリフトの補正にクライアントメモリを利用する。
論文 参考訳(メタデータ) (2024-05-16T14:22:49Z) - Adaptive Model Pruning and Personalization for Federated Learning over
Wireless Networks [72.59891661768177]
フェデレーション学習(FL)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。
これらの課題を克服するために、部分的なモデルプルーニングとパーソナライズを備えたFLフレームワークを検討する。
このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイスのために微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。
論文 参考訳(メタデータ) (2023-09-04T21:10:45Z) - Quantized Distributed Training of Large Models with Convergence
Guarantees [34.054462975511996]
FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。
QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-05T14:20:55Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。