論文の概要: Divide-and-conquer methods for big data analysis
- arxiv url: http://arxiv.org/abs/2102.10771v1
- Date: Mon, 22 Feb 2021 04:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:14:58.309380
- Title: Divide-and-conquer methods for big data analysis
- Title(参考訳): ビッグデータ解析のための分別対数法
- Authors: Xueying Chen, Jerry Q. Cheng, Min-ge Xie
- Abstract要約: Divide-and-conquer 方法論は多段階のプロセスを指す。
本稿では,近年の分割・分割法の開発について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of big data analysis, the divide-and-conquer methodology
refers to a multiple-step process: first splitting a data set into several
smaller ones; then analyzing each set separately; finally combining results
from each analysis together. This approach is effective in handling large data
sets that are unsuitable to be analyzed entirely by a single computer due to
limits either from memory storage or computational time. The combined results
will provide a statistical inference which is similar to the one from analyzing
the entire data set. This article reviews some recently developments of
divide-and-conquer methods in a variety of settings, including combining based
on parametric, semiparametric and nonparametric models, online sequential
updating methods, among others. Theoretical development on the efficiency of
the divide-and-conquer methods is also discussed.
- Abstract(参考訳): ビッグデータ分析の文脈では、分割・問合せの方法論は、まずデータセットをいくつかの小さなプロセスに分割し、次に各セットを別々に分析し、最後に各分析の結果を組み合わせる、多段階のプロセスを指す。
このアプローチは、メモリストレージや計算時間による制限のため、単一のコンピュータで完全に解析できない大規模なデータセットを扱うのに有効である。
組み合わせた結果は、データセット全体の分析から得られるものと類似した統計的推論を提供する。
この記事では、パラメトリック、セミパラメトリック、ノンパラメトリックモデルに基づく組み合わせ、オンラインシーケンシャル更新方法など、さまざまな設定における分割および並列メソッドの最近の開発をレビューします。
また,分割・分散手法の効率に関する理論的発展についても論じる。
関連論文リスト
- Bayesian Federated Inference for regression models with heterogeneous
multi-center populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - On the Effects of Data Heterogeneity on the Convergence Rates of
Distributed Linear System Solvers [10.103350854870992]
一組の機械の助けを借りて線形方程式の大規模系を解く問題を考察する。
アルゴリズムの2つのクラスを比較し、各クラスから最も効率的なメソッドに特に焦点をあてる。
分析の結果,APCが現実シナリオにおいて最も効率的な手法であることを示す以外に,多くの新たな知見が得られた。
論文 参考訳(メタデータ) (2023-04-20T20:48:00Z) - Multivariate regression modeling in integrative analysis via sparse
regularization [0.0]
統合分析は、複数の独立したデータセットから有用な情報をプールする効果的な方法である。
この積分は、変数とグループ選択を実行するスパース推定によって達成される。
提案手法の性能をモンテカルロシミュレーションおよび微生物測定による排水処理データの解析により実証した。
論文 参考訳(メタデータ) (2023-04-15T02:27:51Z) - Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。
提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。
いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文 参考訳(メタデータ) (2022-08-28T13:13:17Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。
本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-02-25T18:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。