論文の概要: Corgi^2: A Hybrid Offline-Online Approach To Storage-Aware Data
Shuffling For SGD
- arxiv url: http://arxiv.org/abs/2309.01640v1
- Date: Mon, 4 Sep 2023 14:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:11:59.714114
- Title: Corgi^2: A Hybrid Offline-Online Approach To Storage-Aware Data
Shuffling For SGD
- Title(参考訳): corgi^2: sgdのストレージ・アウェア・データシャッフルに対するオフライン・オンラインハイブリッドアプローチ
- Authors: Etay Livne, Gal Kaplun, Eran Malach Shai, Shalev-Schwatz
- Abstract要約: グラディエントDescence(SGD)のための新しい部分的データシャッフル戦略を提案する。
CorgiPileメソッドのオフラインイテレーションとその後のオンラインイテレーションを組み合わせたものだ。
提案手法は,CorgiPileのデータアクセス効率を損なうことなく,ランダムアクセスによるSGDと同じような動作を行う。
- 参考スコア(独自算出の注目度): 5.691144886263981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When using Stochastic Gradient Descent (SGD) for training machine learning
models, it is often crucial to provide the model with examples sampled at
random from the dataset. However, for large datasets stored in the cloud,
random access to individual examples is often costly and inefficient. A recent
work \cite{corgi}, proposed an online shuffling algorithm called CorgiPile,
which greatly improves efficiency of data access, at the cost some performance
loss, which is particularly apparent for large datasets stored in homogeneous
shards (e.g., video datasets). In this paper, we introduce a novel two-step
partial data shuffling strategy for SGD which combines an offline iteration of
the CorgiPile method with a subsequent online iteration. Our approach enjoys
the best of both worlds: it performs similarly to SGD with random access (even
for homogenous data) without compromising the data access efficiency of
CorgiPile. We provide a comprehensive theoretical analysis of the convergence
properties of our method and demonstrate its practical advantages through
experimental results.
- Abstract(参考訳): 機械学習モデルのトレーニングに確率勾配降下(sgd)を使用する場合、データセットからランダムにサンプルされたサンプルをモデルに提供することが重要となる。
しかし、クラウドに格納された大規模データセットの場合、個々の例へのランダムアクセスはコストがかかり非効率であることが多い。
最近の研究 "cite{corgi}" では、CorgiPile と呼ばれるオンラインシャッフルアルゴリズムが提案されている。これはデータアクセスの効率を大幅に改善し、パフォーマンス損失がいくらかあるが、これは特に均一なシャード(例えばビデオデータセット)に格納された大きなデータセットに顕著である。
本稿では,コージパイル法のオフラインイテレーションと,それに続くオンラインイテレーションを組み合わせた,sgdのための2段階部分データシャッフル戦略を提案する。
corgipileのデータアクセス効率を損なうことなく、(均質なデータであっても)ランダムアクセスを持つsgdと同じように動作するのです。
本手法の収束特性の包括的理論的解析を行い,その実用的利点を実験的に示す。
関連論文リスト
- Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Stochastic Gradient Descent without Full Data Shuffle [65.97105896033815]
CorgiPileは階層的なデータシャッフル戦略で、完全なデータシャッフルを回避すると同時に、完全なシャッフルを実行したかのようにSGDの収束率を同等に維持する。
以上の結果から,CorgiPileは深層学習モデルと一般化線形モデルの両方において,全シャッフルベースSGDと同等の収束率を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-12T20:04:31Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。