論文の概要: Data Sampling Affects the Complexity of Online SGD over Dependent Data
- arxiv url: http://arxiv.org/abs/2204.00006v1
- Date: Thu, 31 Mar 2022 07:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 15:21:45.582332
- Title: Data Sampling Affects the Complexity of Online SGD over Dependent Data
- Title(参考訳): データサンプリングは依存データに対するオンラインSGDの複雑さに影響を与える
- Authors: Shaocong Ma, Ziyi Chen, Yi Zhou, Kaiyi Ji, Yingbin Liang
- Abstract要約: 本研究では,データサンプリング方式の違いが,高依存データに対するオンライン勾配勾配勾配の複雑さにどのように影響するかを示す。
データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。
- 参考スコア(独自算出の注目度): 54.92366535993012
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conventional machine learning applications typically assume that data samples
are independently and identically distributed (i.i.d.). However, practical
scenarios often involve a data-generating process that produces highly
dependent data samples, which are known to heavily bias the stochastic
optimization process and slow down the convergence of learning. In this paper,
we conduct a fundamental study on how different stochastic data sampling
schemes affect the sample complexity of online stochastic gradient descent
(SGD) over highly dependent data. Specifically, with a $\phi$-mixing model of
data dependence, we show that online SGD with proper periodic data-subsampling
achieves an improved sample complexity over the standard online SGD in the full
spectrum of the data dependence level. Interestingly, even subsampling a subset
of data samples can accelerate the convergence of online SGD over highly
dependent data. Moreover, we show that online SGD with mini-batch sampling can
further substantially improve the sample complexity over online SGD with
periodic data-subsampling over highly dependent data. Numerical experiments
validate our theoretical results.
- Abstract(参考訳): 従来の機械学習アプリケーションは、データサンプルが独立して、同一に分散されていると仮定する。
しかし、実践的なシナリオは、しばしば、確率的最適化プロセスに大きく偏り、学習の収束を遅らせることで知られる、高度に依存したデータサンプルを生成するデータ生成プロセスを含む。
本稿では,オンライン確率勾配降下 (sgd) の高度依存データに対するサンプル複雑性に異なる確率的データサンプリング方式がどのように影響するかに関する基礎研究を行う。
具体的には、データ依存の$\phi$-mixingモデルを用いて、適切な周期データサブサンプリングを伴うオンラインsgdが、データ依存レベルの全スペクトルにおいて、標準オンラインsgdよりもサンプル複雑性が向上することを示す。
興味深いことに、データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。
さらに,ミニバッチサンプリングによるオンラインsgdは,高度に依存するデータに対する定期的なデータサブサンプリングにより,オンラインsgdよりもサンプルの複雑さが大幅に向上することを示す。
数値実験は我々の理論結果を検証する。
関連論文リスト
- Are Synthetic Time-series Data Really not as Good as Real Data? [29.852306720544224]
時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。
InfoBoostは、時系列表現学習機能を備えた、高度に汎用的なクロスドメインデータ合成フレームワークである。
本研究では,実データを用いて学習したモデルの性能を上回りながら,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。
論文 参考訳(メタデータ) (2024-02-01T13:59:04Z) - Imbalanced Aircraft Data Anomaly Detection [103.01418862972564]
航空シナリオ下でのセンサーからの時間データの異常検出は実用的だが難しい課題である。
本稿では,グラフィカル・テンポラル・データ分析フレームワークを提案する。
シリーズ・トゥ・イメージ (S2I) と呼ばれる3つのモジュール、ユークリッド距離 (CRD) を用いたクラスタ・ベース・リサンプリング・アプローチ、変数・ベース・ロス (VBL) から構成される。
論文 参考訳(メタデータ) (2023-05-17T09:37:07Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Diverse Sample Generation: Pushing the Limit of Data-free Quantization [85.95032037447454]
本稿では,データ不要なポストトレーニング量子化と量子化学習のための汎用的な2次サンプル生成手法を提案する。
大規模な画像分類タスクでは、DSGは既存のデータ自由量子化手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-09-01T07:06:44Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Data-Free Network Quantization With Adversarial Knowledge Distillation [39.92282726292386]
本稿では,合成データを用いたデータフリーネットワーク量子化について考察する。
合成データはジェネレータから生成されるが、ジェネレータのトレーニングや量子化にはデータを使用しない。
複数のジェネレータと複数の学生を用いて多様な対向サンプルを作成できることを示す。
論文 参考訳(メタデータ) (2020-05-08T16:24:55Z) - A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。
また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-28T17:11:29Z) - Progressive Growing of Neural ODEs [7.558546277131641]
本研究では,長期連続予測のためのNODEの漸進的学習パラダイムを提案する。
具体的には、カリキュラム学習の原則に従って、トレーニングが進むにつれて、データとネットワーク容量の複雑さが徐々に増大する。
合成データと実交通データ(PeMSベイエリア交通データ)を併用した実験により,バニラノードの性能を64%以上改善した。
論文 参考訳(メタデータ) (2020-03-08T01:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。