論文の概要: Stochastic Gradient Descent without Full Data Shuffle
- arxiv url: http://arxiv.org/abs/2206.05830v1
- Date: Sun, 12 Jun 2022 20:04:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 04:21:34.783413
- Title: Stochastic Gradient Descent without Full Data Shuffle
- Title(参考訳): フルデータシャッフルのない確率的勾配降下
- Authors: Lijie Xu, Shuang Qiu, Binhang Yuan, Jiawei Jiang, Cedric Renggli,
Shaoduo Gan, Kaan Kara, Guoliang Li, Ji Liu, Wentao Wu, Jieping Ye, Ce Zhang
- Abstract要約: CorgiPileは階層的なデータシャッフル戦略で、完全なデータシャッフルを回避すると同時に、完全なシャッフルを実行したかのようにSGDの収束率を同等に維持する。
以上の結果から,CorgiPileは深層学習モデルと一般化線形モデルの両方において,全シャッフルベースSGDと同等の収束率を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 65.97105896033815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) is the cornerstone of modern machine
learning (ML) systems. Despite its computational efficiency, SGD requires
random data access that is inherently inefficient when implemented in systems
that rely on block-addressable secondary storage such as HDD and SSD, e.g.,
TensorFlow/PyTorch and in-DB ML systems over large files. To address this
impedance mismatch, various data shuffling strategies have been proposed to
balance the convergence rate of SGD (which favors randomness) and its I/O
performance (which favors sequential access).
In this paper, we first conduct a systematic empirical study on existing data
shuffling strategies, which reveals that all existing strategies have room for
improvement -- they all suffer in terms of I/O performance or convergence rate.
With this in mind, we propose a simple but novel hierarchical data shuffling
strategy, CorgiPile. Compared with existing strategies, CorgiPile avoids a full
data shuffle while maintaining comparable convergence rate of SGD as if a full
shuffle were performed. We provide a non-trivial theoretical analysis of
CorgiPile on its convergence behavior. We further integrate CorgiPile into
PyTorch by designing new parallel/distributed shuffle operators inside a new
CorgiPileDataSet API. We also integrate CorgiPile into PostgreSQL by
introducing three new physical operators with optimizations. Our experimental
results show that CorgiPile can achieve comparable convergence rate with the
full shuffle based SGD for both deep learning and generalized linear models.
For deep learning models on ImageNet dataset, CorgiPile is 1.5X faster than
PyTorch with full data shuffle. For in-DB ML with linear models, CorgiPile is
1.6X-12.8X faster than two state-of-the-art in-DB ML systems, Apache MADlib and
Bismarck, on both HDD and SSD.
- Abstract(参考訳): 確率勾配降下(SGD)は、現代の機械学習(ML)システムの基盤である。
その計算効率にもかかわらず、SGDは、HDDやSSDのようなブロック対応の二次ストレージに依存するシステム、例えばTensorFlow/PyTorchや大容量ファイル上のイン-DB MLシステムに実装する場合、本質的に非効率なランダムデータアクセスを必要とする。
このインピーダンスミスマッチに対処するため、SGDの収束率(ランダム性を好む)とI/O性能(シーケンシャルアクセスを好む)のバランスをとるための様々なデータシャッフル戦略が提案されている。
本稿では,まず,既存のデータシャッフル戦略に関する系統的実証研究を行い,既存の戦略はすべて改善の余地があることを明らかにした。
このことを念頭に、我々は単純だが新しい階層型データシャッフル戦略であるCorgiPileを提案する。
既存の戦略と比較して、CorgiPileは完全なデータシャッフルを回避すると同時に、完全なシャッフルが実行されたかのようにSGDのコンバージェンスレートを同等に維持する。
コージパイルの収束挙動に関する非自明な理論的解析を提供する。
我々は、新しいCorgiPileDataSet API内で、新しい並列分散シャッフル演算子を設計することで、CorgiPileをPyTorchに統合する。
CorgiPileをPostgreSQLに統合して,最適化を備えた3つの物理演算子を導入しています。
実験結果から,CorgiPileは深層学習モデルと一般化線形モデルの両方において,全シャッフルベースSGDと同等の収束率が得られることが示された。
ImageNetデータセットのディープラーニングモデルでは、CorgiPileは完全なデータシャッフルを備えたPyTorchよりも1.5倍高速である。
線形モデルを持つin-DB MLでは、CorgiPileはHDDとSSDの両方で2つの最先端のIn-DB MLシステムであるApache MADlibとBismarckよりも1.6X-12.8倍高速である。
関連論文リスト
- OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [35.40320275366383]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。
提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - Corgi^2: A Hybrid Offline-Online Approach To Storage-Aware Data
Shuffling For SGD [5.691144886263981]
グラディエントDescence(SGD)のための新しい部分的データシャッフル戦略を提案する。
CorgiPileメソッドのオフラインイテレーションとその後のオンラインイテレーションを組み合わせたものだ。
提案手法は,CorgiPileのデータアクセス効率を損なうことなく,ランダムアクセスによるSGDと同じような動作を行う。
論文 参考訳(メタデータ) (2023-09-04T14:49:27Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z) - Sliced Iterative Normalizing Flows [7.6146285961466]
我々は,任意の確率分布関数(PDF)を対象のPDFに変換することができる反復型(欲求型)ディープラーニング(DL)アルゴリズムを開発した。
本アルゴリズムの特殊な場合として,データから潜在空間(GIS)にマップする2つの反復正規化フロー(SINF)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-01T18:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。