論文の概要: Do We Really Even Need Data? A Modern Look at Drawing Inference with Predicted Data
- arxiv url: http://arxiv.org/abs/2512.05456v1
- Date: Fri, 05 Dec 2025 06:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.917022
- Title: Do We Really Even Need Data? A Modern Look at Drawing Inference with Predicted Data
- Title(参考訳): データも本当に必要か? 予測データによる推論の最新の考察
- Authors: Stephen Salerno, Kentaro Hoffman, Awan Afiaz, Anna Neufeld, Tyler H. McCormick, Jeffrey T. Leek,
- Abstract要約: 高い予測精度は、下流の正しい推測を保証しないことを示す。
予測が変数間の推定あるいは歪関係を体系的にシフトした場合,および (ii) 差は, 予測モデルからの不確実性や真のデータの固有変数を無視する場合に, バイアスという統計的概念に還元されることを示す。
- 参考スコア(独自算出の注目度): 0.8415089854734883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence and machine learning tools become more accessible, and scientists face new obstacles to data collection (e.g., rising costs, declining survey response rates), researchers increasingly use predictions from pre-trained algorithms as substitutes for missing or unobserved data. Though appealing for financial and logistical reasons, using standard tools for inference can misrepresent the association between independent variables and the outcome of interest when the true, unobserved outcome is replaced by a predicted value. In this paper, we characterize the statistical challenges inherent to drawing inference with predicted data (IPD) and show that high predictive accuracy does not guarantee valid downstream inference. We show that all such failures reduce to statistical notions of (i) bias, when predictions systematically shift the estimand or distort relationships among variables, and (ii) variance, when uncertainty from the prediction model and the intrinsic variability of the true data are ignored. We then review recent methods for conducting IPD and discuss how this framework is deeply rooted in classical statistical theory. We then comment on some open questions and interesting avenues for future work in this area, and end with some comments on how to use predicted data in scientific studies that is both transparent and statistically principled.
- Abstract(参考訳): 人工知能と機械学習ツールがよりアクセスしやすくなり、科学者たちはデータ収集の新たな障害に直面している(例えば、コストの上昇、調査回答率の低下など)。
経済的、論理的な理由を訴えるが、推論のための標準ツールを使用することで、真の、観測されていない結果が予測値に置き換えられた場合に、独立変数と利害関係の関連性を誤って表現することができる。
本稿では,予測データ(IPD)による推論に固有の統計的課題を特徴付けるとともに,高い予測精度が下流推定の有効性を保証するものではないことを示す。
このような失敗はすべて統計的概念に還元されることを示す。
一 予測が変数間の推定又は歪んだ関係を体系的にシフトしたとき、及び
(II)予測モデルと真データの本質的変動の不確かさを無視する場合。
次に、最近のIDDの実施法を概観し、この枠組みが古典統計学に深く根ざしているかについて論じる。
次に、この分野の今後の研究に対するいくつかのオープンな質問と興味深い道についてコメントし、透明で統計的に原則化された科学研究で予測されたデータをどのように利用するかについてのコメントを締めくくります。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Do We Really Even Need Data? [2.3749120526936465]
研究者は、事前学習されたアルゴリズムの予測を結果変数として利用している。
推測のための標準的なツールは、真で観測されていない結果が予測された値に置き換えられたときに、独立変数と利害関係の関連性を誤って表現することができる。
論文 参考訳(メタデータ) (2024-01-14T23:19:21Z) - Cross-Prediction-Powered Inference [15.745692520785074]
クロスプレディクション(Cross-prediction)は、機械学習を利用した推論の検証方法である。
予測による推論の適応よりもクロス予測の方が一貫して強力であることを示す。
論文 参考訳(メタデータ) (2023-09-28T17:01:58Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Conformal Prediction Under Feedback Covariate Shift for Biomolecular Design [56.86533144730384]
本稿では,トレーニングデータとテストデータが統計的に依存した環境での予測不確実性を定量化する手法を提案する。
モチベーション・ユースケースとして,本手法が設計したタンパク質の適合性予測の不確かさを定量化する方法を実データで示す。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。