Fugu-MT 論文翻訳(概要): Divide-and-conquer methods for big data analysis

論文の概要: Divide-and-conquer methods for big data analysis

arxiv url: http://arxiv.org/abs/2102.10771v1
Date: Mon, 22 Feb 2021 04:40:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-23 15:14:58.309380
Title: Divide-and-conquer methods for big data analysis
Title（参考訳）: ビッグデータ解析のための分別対数法
Authors: Xueying Chen, Jerry Q. Cheng, Min-ge Xie
Abstract要約: Divide-and-conquer 方法論は多段階のプロセスを指す。本稿では,近年の分割・分割法の開発について概説する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the context of big data analysis, the divide-and-conquer methodology refers to a multiple-step process: first splitting a data set into several smaller ones; then analyzing each set separately; finally combining results from each analysis together. This approach is effective in handling large data sets that are unsuitable to be analyzed entirely by a single computer due to limits either from memory storage or computational time. The combined results will provide a statistical inference which is similar to the one from analyzing the entire data set. This article reviews some recently developments of divide-and-conquer methods in a variety of settings, including combining based on parametric, semiparametric and nonparametric models, online sequential updating methods, among others. Theoretical development on the efficiency of the divide-and-conquer methods is also discussed.
Abstract（参考訳）: ビッグデータ分析の文脈では、分割・問合せの方法論は、まずデータセットをいくつかの小さなプロセスに分割し、次に各セットを別々に分析し、最後に各分析の結果を組み合わせる、多段階のプロセスを指す。このアプローチは、メモリストレージや計算時間による制限のため、単一のコンピュータで完全に解析できない大規模なデータセットを扱うのに有効である。組み合わせた結果は、データセット全体の分析から得られるものと類似した統計的推論を提供する。この記事では、パラメトリック、セミパラメトリック、ノンパラメトリックモデルに基づく組み合わせ、オンラインシーケンシャル更新方法など、さまざまな設定における分割および並列メソッドの最近の開発をレビューします。また,分割・分散手法の効率に関する理論的発展についても論じる。

関連論文リスト

Cross-Learning from Scarce Data via Multi-Task Constrained Optimization [70.90607489166648]
本稿では,データ不足を克服するマルチタスク・エンフクロス学習フレームワークを提案する。我々はこの結合推定を制約付き最適化問題として定式化する。本研究では, 画像分類や伝染病の伝播を含む実データを用いて, クロスラーニング手法の有効性を示す。
論文参考訳（メタデータ） (2025-11-17T18:35:59Z)
Manalyzer: End-to-end Automated Meta-analysis with Multi-agent System [48.093356587573666]
メタアナリシス(Meta-analysis)は、複数の既存の研究からデータを合成し、包括的な結論を導き出す体系的な研究手法である。伝統的なメタ分析は、文献検索、紙のスクリーニング、データ抽出を含む複雑な多段階パイプラインを含む。本稿では,ツールコールによるエンドツーエンドの自動メタ分析を実現するマルチエージェントシステムManalyzerを提案する。
論文参考訳（メタデータ） (2025-05-22T07:25:31Z)
Scaling Inter-procedural Dataflow Analysis on the Cloud [19.562864760293955]
大規模クラスタ上で動作するBigDataflowという分散フレームワークを開発しました。 BigDataflowは、数百万行のコードのプログラムを数分で分析する。
論文参考訳（メタデータ） (2024-12-17T06:18:56Z)
A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。 Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-07-01T04:24:07Z)
Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文参考訳（メタデータ） (2024-04-24T09:04:36Z)
Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文参考訳（メタデータ） (2024-02-05T11:10:27Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Multivariate regression modeling in integrative analysis via sparse regularization [0.0]
統合分析は、複数の独立したデータセットから有用な情報をプールする効果的な方法である。この積分は、変数とグループ選択を実行するスパース推定によって達成される。提案手法の性能をモンテカルロシミュレーションおよび微生物測定による排水処理データの解析により実証した。
論文参考訳（メタデータ） (2023-04-15T02:27:51Z)
Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文参考訳（メタデータ） (2022-08-28T13:13:17Z)
DRFLM: Distributionally Robust Federated Learning with Inter-client Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。上記の2つの課題を同時に解決するための一般的な枠組みを提案する。我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文参考訳（メタデータ） (2022-04-16T08:08:29Z)
Probabilistic methods for approximate archetypal analysis [8.829245587252435]
Archetypal analysisは、探索データ分析のための教師なし学習手法である。データの次元と表現の基数を低減するために,2つの前処理手法を導入する。提案手法を応用して, 適度に大規模なデータセットを要約することで, 結果の有用性を実証する。
論文参考訳（メタデータ） (2021-08-12T14:27:11Z)
Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文参考訳（メタデータ） (2021-05-23T19:21:55Z)
Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文参考訳（メタデータ） (2020-10-20T16:17:47Z)
Evaluating representations by the complexity of learning low-loss predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文参考訳（メタデータ） (2020-09-15T22:06:58Z)
A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文参考訳（メタデータ） (2020-02-25T18:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。