論文の概要: Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data
- arxiv url: http://arxiv.org/abs/2208.08230v1
- Date: Wed, 17 Aug 2022 11:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:33:41.303562
- Title: Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data
- Title(参考訳): 大規模データに対する2段階ロバスト・スパース分布統計推論
- Authors: Emadaldin Mozafari-Majd, Visa Koivunen
- Abstract要約: 本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
- 参考スコア(独自算出の注目度): 18.34490939288318
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we address the problem of conducting statistical inference in
settings involving large-scale data that may be high-dimensional and
contaminated by outliers. The high volume and dimensionality of the data
require distributed processing and storage solutions. We propose a two-stage
distributed and robust statistical inference procedures coping with
high-dimensional models by promoting sparsity. In the first stage, known as
model selection, relevant predictors are locally selected by applying robust
Lasso estimators to the distinct subsets of data. The variable selections from
each computation node are then fused by a voting scheme to find the sparse
basis for the complete data set. It identifies the relevant variables in a
robust manner. In the second stage, the developed statistically robust and
computationally efficient bootstrap methods are employed. The actual inference
constructs confidence intervals, finds parameter estimates and quantifies
standard deviation. Similar to stage 1, the results of local inference are
communicated to the fusion center and combined there. By using analytical
methods, we establish the favorable statistical properties of the robust and
computationally efficient bootstrap methods including consistency for a fixed
number of predictors, and robustness. The proposed two-stage robust and
distributed inference procedures demonstrate reliable performance and
robustness in variable selection, finding confidence intervals and bootstrap
approximations of standard deviations even when data is high-dimensional and
contaminated by outliers.
- Abstract(参考訳): 本稿では, 大規模データを含む, 大規模データを含む環境において, 統計的推論を行う際の問題に対処する。
データのボリュームと次元は分散処理とストレージソリューションを必要とする。
本研究では,高次元モデルに対応する2段階の分散・ロバストな統計推論手法を提案する。
モデル選択として知られる第1段階では、関連する予測子は、データの異なる部分集合にロバストなラッソ推定器を適用することによって局所的に選択される。
各計算ノードからの変数選択は、完全なデータセットのスパース基底を見つけるために投票スキームによって融合される。
関連する変数を堅牢な方法で識別する。
第2段階では、統計的に堅牢で計算効率のよいブートストラップ法が用いられる。
実際の推論は信頼区間を構成し、パラメータ推定を見つけ、標準偏差を定量化する。
ステージ1と同様、局所的推論の結果は融合中心に伝達され、そこで結合される。
解析的手法を用いて,一定数の予測器の整合性や頑健性を含む,頑健で計算効率のよいブートストラップ手法の統計的特性を確立する。
提案する2段階のロバストおよび分散推定手法は,データが高次元であり,異常値によって汚染された場合でも,信頼区間と標準偏差のブートストラップ近似を求めることで,変数選択における信頼性の高い性能とロバスト性を示す。
関連論文リスト
- Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Learning Against Distributional Uncertainty: On the Trade-off Between
Robustness and Specificity [24.874664446700272]
本稿では,3つのアプローチを統一し,上記の2つの課題に対処する新たな枠組みについて検討する。
提案したモデルのモンテカルロ法に基づく解法(例えば、一貫性と正規性)、非漸近性(例えば、非バイアス性や誤差境界)について検討した。
論文 参考訳(メタデータ) (2023-01-31T11:33:18Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Robust Bayesian Inference for Discrete Outcomes with the Total Variation
Distance [5.139874302398955]
離散的に評価された結果のモデルは、データがゼロインフレーション、過分散または汚染を示す場合、容易に誤特定される。
ここでは、Ttal Variation Distance (TVD) を用いた頑健な相違に基づくベイズ的アプローチを提案する。
我々は、我々のアプローチが堅牢で、シミュレーションおよび実世界のデータの範囲で予測性能を著しく改善していることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-26T09:53:06Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。