論文の概要: Cross-Prediction-Powered Inference
- arxiv url: http://arxiv.org/abs/2309.16598v1
- Date: Thu, 28 Sep 2023 17:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:16:42.580750
- Title: Cross-Prediction-Powered Inference
- Title(参考訳): クロス予測駆動推論
- Authors: Tijana Zrnic, Emmanuel J. Cand\`es
- Abstract要約: クロスプレディクション(Cross-prediction)は、機械学習を利用した推論の検証方法である。
予測による推論の適応よりもクロス予測の方が一貫して強力であることを示す。
- 参考スコア(独自算出の注目度): 15.745692520785074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reliable data-driven decision-making hinges on high-quality labeled
data, the acquisition of quality labels often involves laborious human
annotations or slow and expensive scientific measurements. Machine learning is
becoming an appealing alternative as sophisticated predictive techniques are
being used to quickly and cheaply produce large amounts of predicted labels;
e.g., predicted protein structures are used to supplement experimentally
derived structures, predictions of socioeconomic indicators from satellite
imagery are used to supplement accurate survey data, and so on. Since
predictions are imperfect and potentially biased, this practice brings into
question the validity of downstream inferences. We introduce cross-prediction:
a method for valid inference powered by machine learning. With a small labeled
dataset and a large unlabeled dataset, cross-prediction imputes the missing
labels via machine learning and applies a form of debiasing to remedy the
prediction inaccuracies. The resulting inferences achieve the desired error
probability and are more powerful than those that only leverage the labeled
data. Closely related is the recent proposal of prediction-powered inference,
which assumes that a good pre-trained model is already available. We show that
cross-prediction is consistently more powerful than an adaptation of
prediction-powered inference in which a fraction of the labeled data is split
off and used to train the model. Finally, we observe that cross-prediction
gives more stable conclusions than its competitors; its confidence intervals
typically have significantly lower variability.
- Abstract(参考訳): 高品質なラベル付きデータに基づく信頼性の高いデータ駆動意思決定のヒントがある一方で、品質ラベルの取得には、退屈な人間のアノテーションや、遅くて高価な科学的測定が伴うことが多い。
例えば、予測されたタンパク質構造は実験的に導かれた構造を補うために使われ、衛星画像からの社会経済指標の予測は正確な測量データを補完するために使われるなどである。
予測は不完全であり、潜在的に偏りがあるため、このプラクティスは下流推論の妥当性に疑問を呈する。
本稿では,機械学習を用いた有効な推論手法であるクロス予測を提案する。
小さなラベル付きデータセットと大きなラベルなしデータセットで、クロスプリディクションは機械学習によるラベルの欠落を暗示し、予測の不正確さを改善するためにデバイアスの形式を適用する。
結果の推論は望ましいエラー確率を達成し、ラベル付きデータのみを利用するものよりも強力である。
優れた事前学習モデルがすでに利用可能であると仮定する、予測駆動推論の最近の提案と密接に関連している。
我々は,ラベル付きデータのごく一部を分割してモデルを訓練する予測型推論の適応よりも,クロス予測の方が一貫して強力であることを示す。
最後に、クロス述語は競合語よりもより安定な結論を与え、その信頼区間は一般にかなり低い変動率を持つ。
関連論文リスト
- Do We Really Even Need Data? [2.3749120526936465]
研究者は、事前学習されたアルゴリズムの予測を結果変数として利用している。
推測のための標準的なツールは、真で観測されていない結果が予測された値に置き換えられたときに、独立変数と利害関係の関連性を誤って表現することができる。
論文 参考訳(メタデータ) (2024-01-14T23:19:21Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Generalized Adversarial Distances to Efficiently Discover Classifier
Errors [0.0]
高信頼エラーは、モデルがその予測に非常に自信を持っているが間違っている稀な出来事である。
本稿では,機械学習の概念を活用し,逆距離探索の一般化を提案する。
実験結果から, 一般化された手法では, 予測値の信頼度から, 予測値よりも誤差が大きいことがわかった。
論文 参考訳(メタデータ) (2021-02-25T13:31:21Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。