論文の概要: Distributed Semi-Supervised Sparse Statistical Inference
- arxiv url: http://arxiv.org/abs/2306.10395v2
- Date: Fri, 15 Dec 2023 06:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 19:20:38.564833
- Title: Distributed Semi-Supervised Sparse Statistical Inference
- Title(参考訳): 分散半教師付きスパース統計推論
- Authors: Jiyuan Tu, Weidong Liu, Xiaojun Mao, Mingyue Xu
- Abstract要約: 縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
- 参考スコア(独自算出の注目度): 6.685997976921953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The debiased estimator is a crucial tool in statistical inference for
high-dimensional model parameters. However, constructing such an estimator
involves estimating the high-dimensional inverse Hessian matrix, incurring
significant computational costs. This challenge becomes particularly acute in
distributed setups, where traditional methods necessitate computing a debiased
estimator on every machine. This becomes unwieldy, especially with a large
number of machines. In this paper, we delve into semi-supervised sparse
statistical inference in a distributed setup. An efficient multi-round
distributed debiased estimator, which integrates both labeled and unlabelled
data, is developed. We will show that the additional unlabeled data helps to
improve the statistical rate of each round of iteration. Our approach offers
tailored debiasing methods for $M$-estimation and generalized linear models
according to the specific form of the loss function. Our method also applies to
a non-smooth loss like absolute deviation loss. Furthermore, our algorithm is
computationally efficient since it requires only one estimation of a
high-dimensional inverse covariance matrix. We demonstrate the effectiveness of
our method by presenting simulation studies and real data applications that
highlight the benefits of incorporating unlabeled data.
- Abstract(参考訳): debiased estimatorは、高次元モデルパラメータの統計的推論において重要なツールである。
しかし、そのような推定器を構築するには、高次元の逆ヘッセン行列を推定し、かなりの計算コストがかかる。
この課題は、従来の方法がすべてのマシンでデバイアス推定器を計算する必要がある分散セットアップにおいて特に深刻になる。
これは、特に多くのマシンでは、不利になる。
本稿では,半教師付きスパース統計推論を分散配置で検討する。
ラベル付きデータとラベル付きデータの両方を統合する効率的なマルチラウンド分散デバイアス推定器を開発した。
ラベルなしのデータを追加することで、各イテレーションのラウンドの統計率が向上することを示す。
本手法は、損失関数の特定の形式に従って、$m$推定と一般化線形モデルのための調整されたデバイアス手法を提供する。
本手法は絶対偏差損失のような非スムース損失にも適用できる。
さらに,このアルゴリズムは高次元逆共分散行列の1つの推定しか必要としないため,計算効率がよい。
提案手法の有効性をシミュレーション研究と実データ応用で示し, ラベルなしデータの導入によるメリットを浮き彫りにした。
関連論文リスト
- Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Distributionally Robust Optimization with Markovian Data [8.126833795693699]
本研究では,不確実な問題パラメータの確率分布が不明なプログラムについて検討する。
本稿では,問題の目的関数と最適解を推定するために,データ駆動型分布法を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:59:02Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z) - Median Matrix Completion: from Embarrassment to Optimality [16.667260586938234]
絶対偏差損失を持つ行列の完全性を考察し,中央値行列の推定値を求める。
中央値のいくつかの魅力的な性質にもかかわらず、非滑らかな絶対偏差損失は計算に挑戦する。
そこで我々は,非効率な推定器を(最適に近い)行列補完手順に変換する改良ステップを提案する。
論文 参考訳(メタデータ) (2020-06-18T10:01:22Z) - Nonparametric inverse probability weighted estimators based on the
highly adaptive lasso [0.966840768820136]
非パラメトリック逆確率重み付き推定器は非効率であり、次元性の呪いに苦しむことが知られている。
高度適応型ラッソのアンダースムーシングにより重み付け機構を推定する非パラメトリック逆確率重み付き推定器のクラスを提案する。
我々の開発は、大規模統計モデルと様々な問題設定における効率的な逆確率重み付き推定器の構築に幅広い意味を持つ。
論文 参考訳(メタデータ) (2020-05-22T17:49:46Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。