論文の概要: Divide-and-conquer methods for big data analysis
- arxiv url: http://arxiv.org/abs/2102.10771v1
- Date: Mon, 22 Feb 2021 04:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:14:58.309380
- Title: Divide-and-conquer methods for big data analysis
- Title(参考訳): ビッグデータ解析のための分別対数法
- Authors: Xueying Chen, Jerry Q. Cheng, Min-ge Xie
- Abstract要約: Divide-and-conquer 方法論は多段階のプロセスを指す。
本稿では,近年の分割・分割法の開発について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of big data analysis, the divide-and-conquer methodology
refers to a multiple-step process: first splitting a data set into several
smaller ones; then analyzing each set separately; finally combining results
from each analysis together. This approach is effective in handling large data
sets that are unsuitable to be analyzed entirely by a single computer due to
limits either from memory storage or computational time. The combined results
will provide a statistical inference which is similar to the one from analyzing
the entire data set. This article reviews some recently developments of
divide-and-conquer methods in a variety of settings, including combining based
on parametric, semiparametric and nonparametric models, online sequential
updating methods, among others. Theoretical development on the efficiency of
the divide-and-conquer methods is also discussed.
- Abstract(参考訳): ビッグデータ分析の文脈では、分割・問合せの方法論は、まずデータセットをいくつかの小さなプロセスに分割し、次に各セットを別々に分析し、最後に各分析の結果を組み合わせる、多段階のプロセスを指す。
このアプローチは、メモリストレージや計算時間による制限のため、単一のコンピュータで完全に解析できない大規模なデータセットを扱うのに有効である。
組み合わせた結果は、データセット全体の分析から得られるものと類似した統計的推論を提供する。
この記事では、パラメトリック、セミパラメトリック、ノンパラメトリックモデルに基づく組み合わせ、オンラインシーケンシャル更新方法など、さまざまな設定における分割および並列メソッドの最近の開発をレビューします。
また,分割・分散手法の効率に関する理論的発展についても論じる。
関連論文リスト
- A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Multivariate regression modeling in integrative analysis via sparse
regularization [0.0]
統合分析は、複数の独立したデータセットから有用な情報をプールする効果的な方法である。
この積分は、変数とグループ選択を実行するスパース推定によって達成される。
提案手法の性能をモンテカルロシミュレーションおよび微生物測定による排水処理データの解析により実証した。
論文 参考訳(メタデータ) (2023-04-15T02:27:51Z) - Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。
提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。
いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文 参考訳(メタデータ) (2022-08-28T13:13:17Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Probabilistic methods for approximate archetypal analysis [8.829245587252435]
Archetypal analysisは、探索データ分析のための教師なし学習手法である。
データの次元と表現の基数を低減するために,2つの前処理手法を導入する。
提案手法を応用して, 適度に大規模なデータセットを要約することで, 結果の有用性を実証する。
論文 参考訳(メタデータ) (2021-08-12T14:27:11Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。