論文の概要: Do We Really Even Need Data?
- arxiv url: http://arxiv.org/abs/2401.08702v1
- Date: Sun, 14 Jan 2024 23:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:26:37.855598
- Title: Do We Really Even Need Data?
- Title(参考訳): 本当にデータが必要なのか?
- Authors: Kentaro Hoffman, Stephen Salerno, Awan Afiaz, Jeffrey T. Leek, Tyler
H. McCormick
- Abstract要約: 研究者は、事前学習されたアルゴリズムの予測を結果変数として利用している。
推測のための標準的なツールは、真で観測されていない結果が予測された値に置き換えられたときに、独立変数と利害関係の関連性を誤って表現することができる。
- 参考スコア(独自算出の注目度): 2.3749120526936465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence and machine learning tools become more accessible,
and scientists face new obstacles to data collection (e.g. rising costs,
declining survey response rates), researchers increasingly use predictions from
pre-trained algorithms as outcome variables. Though appealing for financial and
logistical reasons, using standard tools for inference can misrepresent the
association between independent variables and the outcome of interest when the
true, unobserved outcome is replaced by a predicted value. In this paper, we
characterize the statistical challenges inherent to this so-called
``post-prediction inference'' problem and elucidate three potential sources of
error: (i) the relationship between predicted outcomes and their true,
unobserved counterparts, (ii) robustness of the machine learning model to
resampling or uncertainty about the training data, and (iii) appropriately
propagating not just bias but also uncertainty from predictions into the
ultimate inference procedure. We also contrast the framework for
post-prediction inference with classical work spanning several related fields,
including survey sampling, missing data, and semi-supervised learning. This
contrast elucidates the role of design in both classical and modern inference
problems.
- Abstract(参考訳): 人工知能と機械学習ツールがよりアクセスしやすくなり、科学者はデータ収集に新たな障害に直面し(例えば、コストの上昇、サーベイ応答率の低下)、事前訓練されたアルゴリズムからの予測を結果変数として使うようになった。
財政的な理由や物流的な理由には訴えるが、推論に標準的なツールを使用することで、真の観測できない結果が予測された値に置き換えられる場合、独立した変数と利害関係の関係を誤って表現することができる。
本稿では,このいわゆる ‘post-prediction inference'' 問題に固有の統計的課題を特徴付け,3つの潜在的な誤り源を解明する。
(i)予測結果と真に観察できない結果の関係
二 トレーニングデータの再サンプリング又は不確実性に対する機械学習モデルの堅牢性、及び
(iii)バイアスだけでなく、予測から究極の推論手順への不確実性も適切に伝播する。
また,推定後推論の枠組みを,調査サンプリング,データ欠落,半教師付き学習など,いくつかの関連分野にまたがる古典的作業と比較した。
この対比は、古典的および近代的な推論問題における設計の役割を解明する。
関連論文リスト
- Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。
課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文 参考訳(メタデータ) (2024-05-30T10:49:22Z) - Multi-Source Conformal Inference Under Distribution Shift [41.701790856201036]
複数のバイアスのあるデータソースを活用することにより,対象個体数の分布自由な予測区間を得るという課題を考察する。
対象集団および源集団における未観測結果の定量値に対する効率的な影響関数を導出する。
本稿では、効率向上のための重み付き情報ソースとバイアス低減のための重み付き非情報ソースに対するデータ適応戦略を提案する。
論文 参考訳(メタデータ) (2024-05-15T13:33:09Z) - Fair Generalized Linear Mixed Models [0.0]
機械学習の公正性は、データとモデルの不正確さのバイアスが差別的な決定に結びつかないことを保証することを目的としている。
両問題を同時に処理できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-15T11:42:41Z) - Cross-Prediction-Powered Inference [15.745692520785074]
クロスプレディクション(Cross-prediction)は、機械学習を利用した推論の検証方法である。
予測による推論の適応よりもクロス予測の方が一貫して強力であることを示す。
論文 参考訳(メタデータ) (2023-09-28T17:01:58Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Is augmentation effective to improve prediction in imbalanced text
datasets? [3.1690891866882236]
データ拡張なしでカットオフを調整することは、オーバーサンプリング手法と同じような結果をもたらすと我々は主張する。
この結果は、不均衡なデータを扱うための様々なアプローチの長所と短所の理解に寄与する。
論文 参考訳(メタデータ) (2023-04-20T13:07:31Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。