論文の概要: Scale up with Order: Finding Good Data Permutations for Distributed
Training
- arxiv url: http://arxiv.org/abs/2302.00845v1
- Date: Thu, 2 Feb 2023 03:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:31:27.519467
- Title: Scale up with Order: Finding Good Data Permutations for Distributed
Training
- Title(参考訳): 順序付きスケールアップ: 分散トレーニングのための優れたデータ置換を見つける
- Authors: Wentao Guo, Khiem Pham, Yucheng Lu, Tiancheng Yuan, Charlie F. Ruan,
Christopher De Sa
- Abstract要約: グラディエント・バランシング(GraB)は、有限データセット上で複数のエポックを持つモデルをトレーニングする際に、確実に優れたデータ置換を見出す。
GraBは広く採用されているRandom Reshuffildelingよりも高速な検証レートで収束する。
GLAR や CIF-2 など,D-GraB と D-GraB Distributed Random Reshuffling をトレーニングと性能の両面から示す。
- 参考スコア(独自算出の注目度): 30.491249442186607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient Balancing (GraB) is a recently proposed technique that finds
provably better data permutations when training models with multiple epochs
over a finite dataset. It converges at a faster rate than the widely adopted
Random Reshuffling, by minimizing the discrepancy of the gradients on
adjacently selected examples. However, GraB only operates under critical
assumptions such as small batch sizes and centralized data, leaving open the
question of how to order examples at large scale -- i.e. distributed learning
with decentralized data. To alleviate the limitation, in this paper we propose
D-GraB that involves two novel designs: (1) $\textsf{PairBalance}$ that
eliminates the requirement to use stale gradient mean in GraB which critically
relies on small learning rates; (2) an ordering protocol that runs
$\textsf{PairBalance}$ in a distributed environment with negligible overhead,
which benefits from both data ordering and parallelism. We prove D-GraB enjoys
linear speed up at rate $\tilde{O}((mnT)^{-2/3})$ on smooth non-convex
objectives and $\tilde{O}((mnT)^{-2})$ under PL condition, where $n$ denotes
the number of parallel workers, $m$ denotes the number of examples per worker
and $T$ denotes the number of epochs. Empirically, we show on various
applications including GLUE, CIFAR10 and WikiText-2 that D-GraB outperforms
naive parallel GraB and Distributed Random Reshuffling in terms of both
training and validation performance.
- Abstract(参考訳): Gradient Balancing(グラディエント・バランシング、GraB)は、有限データセット上で複数のエポックを持つモデルをトレーニングする際に、確実に優れたデータ置換を求める手法である。
広く採用されているランダムなリシャッフルよりも速い速度で収束し、隣接した例の勾配の不一致を最小限に抑える。
しかし、GraBは小さなバッチサイズや集中型データといった重要な前提の下でのみ動作し、大規模にサンプルを注文する方法、すなわち分散学習と分散データという疑問を解き放つ。
この制限を緩和するために,本論文では,2つの新しい設計を含むd-grabを提案する。(1) 学習速度の小さいgrabにおいて,定位勾配平均を使用する必要がなくなる$\textsf{pairbalance}$ と,データ順序付けと並列処理の両方から恩恵を受ける分散環境において$\textsf{pairbalance}$ を実行する順序付けプロトコルである。
d-grab は、滑らかな非凸目的に対する $\tilde{o}((mnt)^{-2/3})$ と pl 条件下で $\tilde{o}((mnt)^{-2})$ で線形速度が向上することを証明し、ここで $n$ は並列ワーカーの数を表し、$m$ はワーカー当たりのサンプル数を表し、$t$ はエポック数を表す。
実験では,GLUE, CIFAR10, WikiText-2 など,D-GraB が初歩的な並列 GraB と分散ランダムリシャッフルをトレーニング性能と検証性能の両方で上回っていることを示す。
関連論文リスト
- Generalized Schrödinger Bridge Matching [54.171931505066]
一般化Schr"odinger Bridge (GSB) 問題設定は、機械学習の内外を問わず、多くの科学領域で一般的である。
我々は最近の進歩に触発された新しいマッチングアルゴリズムである一般化シュリンガーブリッジマッチング(GSBM)を提案する。
このような一般化は条件最適制御の解法として、変分近似を用いることができることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:42:11Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Deep Momentum Multi-Marginal Schr\"odinger Bridge [41.27274841596343]
本稿では,時間的限界制約を満たすシステムに対して,スムーズな測度値アルゴリズムを学習する新しいフレームワークを提案する。
我々のアルゴリズムは、合成データセットと実世界の単一細胞RNAデータセットシーケンスの実験によって証明されたように、ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-03-03T07:24:38Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Characterizing & Finding Good Data Orderings for Fast Convergence of
Sequential Gradient Methods [0.0]
我々は、順序が収束速度に及ぼす影響を定量化し、選択された置換列に基づいて収束境界を求める。
我々は、訓練中に優れた順序を選択するための欲求アルゴリズムを開発し、RRよりも優れた性能(精度が14%以上)を達成した。
論文 参考訳(メタデータ) (2022-02-03T20:38:42Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。
非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。
本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文 参考訳(メタデータ) (2020-03-23T23:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。