論文の概要: A Selective Review on Statistical Methods for Massive Data Computation: Distributed Computing, Subsampling, and Minibatch Techniques
- arxiv url: http://arxiv.org/abs/2403.11163v1
- Date: Sun, 17 Mar 2024 10:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:15:50.867195
- Title: A Selective Review on Statistical Methods for Massive Data Computation: Distributed Computing, Subsampling, and Minibatch Techniques
- Title(参考訳): 大規模データ計算における統計的手法の選択的レビュー:分散コンピューティング, サブサンプリング, ミニバッチ技術
- Authors: Xuetong Li, Yuan Gao, Hong Chang, Danyang Huang, Yingying Ma, Rui Pan, Haobo Qi, Feifei Wang, Shuyuan Wu, Ke Xu, Jing Zhou, Xuening Zhu, Yingqiu Zhu, Hansheng Wang,
- Abstract要約: 本研究では,(1)分散計算,(2)サブサンプリング法,(3)ミニバッチ勾配手法の3つのカテゴリに着目した。
最初のクラスの文献は分散コンピューティングに関するもので、データセットのサイズが大きすぎて1台のコンピュータで快適に処理できない。
第2級の文献は、データセットのサンプルサイズが1つのコンピュータに配置できるくらい小さいが、メモリ全体によって簡単に処理できないという、サブサンプリング方法と状況に対する懸念に関するものである。
- 参考スコア(独自算出の注目度): 25.02584648731468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a selective review of statistical computation methods for massive data analysis. A huge amount of statistical methods for massive data computation have been rapidly developed in the past decades. In this work, we focus on three categories of statistical computation methods: (1) distributed computing, (2) subsampling methods, and (3) minibatch gradient techniques. The first class of literature is about distributed computing and focuses on the situation, where the dataset size is too huge to be comfortably handled by one single computer. In this case, a distributed computation system with multiple computers has to be utilized. The second class of literature is about subsampling methods and concerns about the situation, where the sample size of dataset is small enough to be placed on one single computer but too large to be easily processed by its memory as a whole. The last class of literature studies those minibatch gradient related optimization techniques, which have been extensively used for optimizing various deep learning models.
- Abstract(参考訳): 本稿では,大規模データ解析のための統計計算手法の選択的なレビューを行う。
大規模なデータ計算のための膨大な量の統計手法が、ここ数十年間で急速に開発されてきた。
本研究では,(1)分散コンピューティング,(2)サブサンプリング手法,(3)ミニバッチ勾配手法の3つのカテゴリに焦点をあてる。
第一級の文献は分散コンピューティングであり、データセットのサイズが大きすぎて1台のコンピュータで快適に処理できない状況に焦点を当てている。
この場合、複数のコンピュータによる分散計算システムを利用する必要がある。
第2級の文献は、データセットのサンプルサイズが1つのコンピュータに配置できるくらい小さいが、メモリ全体によって簡単に処理できないという、サブサンプリング方法と状況に対する懸念に関するものである。
最後のクラスでは、様々なディープラーニングモデルの最適化に広く使われているミニバッチ勾配関連最適化技術について研究している。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - A step towards the integration of machine learning and small area
estimation [0.0]
本稿では,機械学習アルゴリズムがサポートする予測器を提案する。
仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
論文 参考訳(メタデータ) (2024-02-12T09:43:17Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Learning Large Scale Sparse Models [6.428186644949941]
サンプルの数や特徴次元が数百万から数十億にも達する大規模環境でスパースモデルを学習することを検討する。
ラッソのようなスパースモデルをオンライン的に学習し、ランダムに選択されたサンプルが1つだけ露呈してスパース勾配を更新することを提案する。
これにより、メモリコストはサンプルサイズに依存しず、1つのサンプルの勾配評価が効率的となる。
論文 参考訳(メタデータ) (2023-01-26T06:29:49Z) - The Integrity of Machine Learning Algorithms against Software Defect
Prediction [0.0]
本報告では,Liangらが開発したオンラインシーケンス・エクストリーム・ラーニング・マシン(OS-ELM)の性能を解析する。
OS-ELMは従来のディープニューラルネットワークよりも高速にトレーニングし、常にグローバルな最適解に収束する。
この分析は、NASAグループが実施する3つのプロジェクトKC1、PC4、PC3で実施される。
論文 参考訳(メタデータ) (2020-09-05T17:26:56Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Distributed Bayesian Matrix Decomposition for Big Data Mining and
Clustering [13.491022200305824]
本稿では,ビッグデータマイニングとクラスタリングのための分散行列分解モデルを提案する。
具体的には, 1) 加速度勾配降下, 2) 乗算器の交互方向法, 3) 統計的推論の3つの方法を採用する。
我々のアルゴリズムは、ビッグデータによく対応し、他の分散手法と比較して優れた、あるいは競合する性能を達成する。
論文 参考訳(メタデータ) (2020-02-10T13:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。