論文の概要: Optimal Semi-supervised Estimation and Inference for High-dimensional
Linear Regression
- arxiv url: http://arxiv.org/abs/2011.14185v1
- Date: Sat, 28 Nov 2020 18:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 19:46:32.140434
- Title: Optimal Semi-supervised Estimation and Inference for High-dimensional
Linear Regression
- Title(参考訳): 高次元線形回帰の最適半教師付き推定と推定
- Authors: Siyi Deng, Yang Ning, Jiwei Zhao, Heping Zhang
- Abstract要約: このようなデータ構造を持つ線形回帰問題を高次元下で考察する。
我々のゴールは、線形モデルにおける回帰パラメータの推定と推論を改善するために、ラベルなしデータをいつ、どのように利用できるかを調査することである。
- 参考スコア(独自算出の注目度): 4.4102422716568235
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There are many scenarios such as the electronic health records where the
outcome is much more difficult to collect than the covariates. In this paper,
we consider the linear regression problem with such a data structure under the
high dimensionality. Our goal is to investigate when and how the unlabeled data
can be exploited to improve the estimation and inference of the regression
parameters in linear models, especially in light of the fact that such linear
models may be misspecified in data analysis. In particular, we address the
following two important questions. (1) Can we use the labeled data as well as
the unlabeled data to construct a semi-supervised estimator such that its
convergence rate is faster than the supervised estimators? (2) Can we construct
confidence intervals or hypothesis tests that are guaranteed to be more
efficient or powerful than the supervised estimators? To address the first
question, we establish the minimax lower bound for parameter estimation in the
semi-supervised setting. We show that the upper bound from the supervised
estimators that only use the labeled data cannot attain this lower bound. We
close this gap by proposing a new semi-supervised estimator which attains the
lower bound. To address the second question, based on our proposed
semi-supervised estimator, we propose two additional estimators for
semi-supervised inference, the efficient estimator and the safe estimator. The
former is fully efficient if the unknown conditional mean function is estimated
consistently, but may not be more efficient than the supervised approach
otherwise. The latter usually does not aim to provide fully efficient
inference, but is guaranteed to be no worse than the supervised approach, no
matter whether the linear model is correctly specified or the conditional mean
function is consistently estimated.
- Abstract(参考訳): 電子健康記録のような多くのシナリオがあり、コ変量よりも結果の収集がずっと難しい。
本稿では,そのようなデータ構造を持つ線形回帰問題を高次元下で考察する。
本研究の目的は, 線形モデルにおける回帰パラメータの推定と推定を改善するために, ラベルなしのデータをいつ, どのように活用できるかを検討することである。
特に、以下の2つの重要な質問を取り上げます。
1)ラベル付きデータとラベルなしデータを使って半教師付き推定器を構築して、教師付き推定器よりも収束速度が速いようにすることができるか。
(2)監督された推定者よりも効率的あるいは強力であることが保証された信頼区間や仮説テストの構築は可能か?
最初の問題に対処するために、半教師付き設定においてパラメータ推定のための最小値下限を確立する。
ラベル付きデータのみを使用する教師付き推定器からの上限は,この下限を達成できないことを示す。
このギャップを閉じるために、下限に達する新しい半教師付き推定器を提案する。
提案した半教師付き推定器に基づき, 半教師付き推定器, 効率的な推定器, 安全な推定器の2つの追加推定器を提案する。
前者は、未知条件平均関数が一貫して推定される場合、完全に効率的であるが、それ以外は教師付きアプローチよりも効率的ではないかもしれない。
後者は通常、完全に効率的な推論を提供することを目標としないが、線形モデルが正しく指定されているか条件平均関数が一貫して推定されているかに関わらず、教師付きアプローチよりも悪くはないことが保証される。
関連論文リスト
- Heavy-tailed Contamination is Easier than Adversarial Contamination [8.607294463464523]
ハマー (Huber, 1960) にさかのぼる統計学と計算機科学のコミュニティにおける研究の成果は、統計学的および計算学的に効率的なアウトリア・ローバスト推定器に繋がった。
2つの特定の外れ値モデル、すなわち対向モデルと重尾モデルが注目されている。
論文 参考訳(メタデータ) (2024-11-22T19:00:33Z) - Debiased Regression for Root-N-Consistent Conditional Mean Estimation [10.470114319701576]
本稿では,高次元および非パラメトリック回帰推定器を含む回帰推定器のデバイアス化手法を提案する。
理論解析により,提案した推定器は,緩やかな収束率条件下で$sqrtn$-consistencyと正規性を達成することを示した。
提案手法は,推定精度の向上や信頼区間の簡易化など,いくつかの利点を提供する。
論文 参考訳(メタデータ) (2024-11-18T17:25:06Z) - Leveraging Variational Autoencoders for Parameterized MMSE Estimation [10.141454378473972]
条件付き線形最小二乗誤差推定器のパラメータ化のための変分オートエンコーダに基づくフレームワークを提案する。
導出した推定器は、推定問題の生成前として変分オートエンコーダを用いて最小平均2乗誤差推定器を近似する。
提案手法と最小平均二乗誤差推定器の差分を限定して厳密な解析を行う。
論文 参考訳(メタデータ) (2023-07-11T15:41:34Z) - Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings [0.5735035463793009]
2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考察する。
本稿では,2つのデータセットに基づいて,応答量子化(s)に対する半教師付き推定器群を提案する。
論文 参考訳(メタデータ) (2022-01-25T10:02:23Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Learning Minimax Estimators via Online Learning [55.92459567732491]
確率分布のパラメータを推定するミニマックス推定器を設計する際の問題点を考察する。
混合ケースナッシュ平衡を求めるアルゴリズムを構築した。
論文 参考訳(メタデータ) (2020-06-19T22:49:42Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Distributional robustness of K-class estimators and the PULSE [4.56877715768796]
古典的Kクラス推定器は、Kクラス推定器とアンカー回帰との接続を確立することにより、そのような最適性を満たすことを証明する。
データ駆動型シミュレーションKクラス推定器として効率的に計算できることを示す。
弱い楽器の設定を含むいくつかの設定があり、他の推定値よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T09:39:07Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。