Fugu-MT 論文翻訳(概要): Do We Really Even Need Data?

論文の概要: Do We Really Even Need Data?

arxiv url: http://arxiv.org/abs/2401.08702v1
Date: Sun, 14 Jan 2024 23:19:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 18:26:37.855598
Title: Do We Really Even Need Data?
Title（参考訳）: 本当にデータが必要なのか?
Authors: Kentaro Hoffman, Stephen Salerno, Awan Afiaz, Jeffrey T. Leek, Tyler H. McCormick
Abstract要約: 研究者は、事前学習されたアルゴリズムの予測を結果変数として利用している。推測のための標準的なツールは、真で観測されていない結果が予測された値に置き換えられたときに、独立変数と利害関係の関連性を誤って表現することができる。
参考スコア（独自算出の注目度）: 2.3749120526936465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As artificial intelligence and machine learning tools become more accessible, and scientists face new obstacles to data collection (e.g. rising costs, declining survey response rates), researchers increasingly use predictions from pre-trained algorithms as outcome variables. Though appealing for financial and logistical reasons, using standard tools for inference can misrepresent the association between independent variables and the outcome of interest when the true, unobserved outcome is replaced by a predicted value. In this paper, we characterize the statistical challenges inherent to this so-called ``post-prediction inference'' problem and elucidate three potential sources of error: (i) the relationship between predicted outcomes and their true, unobserved counterparts, (ii) robustness of the machine learning model to resampling or uncertainty about the training data, and (iii) appropriately propagating not just bias but also uncertainty from predictions into the ultimate inference procedure. We also contrast the framework for post-prediction inference with classical work spanning several related fields, including survey sampling, missing data, and semi-supervised learning. This contrast elucidates the role of design in both classical and modern inference problems.
Abstract（参考訳）: 人工知能と機械学習ツールがよりアクセスしやすくなり、科学者はデータ収集に新たな障害に直面し(例えば、コストの上昇、サーベイ応答率の低下)、事前訓練されたアルゴリズムからの予測を結果変数として使うようになった。財政的な理由や物流的な理由には訴えるが、推論に標準的なツールを使用することで、真の観測できない結果が予測された値に置き換えられる場合、独立した変数と利害関係の関係を誤って表現することができる。本稿では,このいわゆる ‘post-prediction inference'' 問題に固有の統計的課題を特徴付け,3つの潜在的な誤り源を解明する。 (i)予測結果と真に観察できない結果の関係二トレーニングデータの再サンプリング又は不確実性に対する機械学習モデルの堅牢性、及び (iii)バイアスだけでなく、予測から究極の推論手順への不確実性も適切に伝播する。また,推定後推論の枠組みを,調査サンプリング,データ欠落,半教師付き学習など,いくつかの関連分野にまたがる古典的作業と比較した。この対比は、古典的および近代的な推論問題における設計の役割を解明する。

関連論文リスト

Do We Really Even Need Data? A Modern Look at Drawing Inference with Predicted Data [0.8415089854734883]
高い予測精度は、下流の正しい推測を保証しないことを示す。予測が変数間の推定あるいは歪関係を体系的にシフトした場合,および (ii) 差は, 予測モデルからの不確実性や真のデータの固有変数を無視する場合に, バイアスという統計的概念に還元されることを示す。
論文参考訳（メタデータ） (2025-12-05T06:24:23Z)
A Theory of the Mechanics of Information: Generalization Through Measurement of Uncertainty (Learning is Measuring) [0.0]
本研究では,情報理論の不確実性(informationtheoretic uncertainty)を用いたモデルフリーフレームワークを導入し,生データからの推論を解析・実行した。分散モデリングを排除し、バイアスを低減し、トレーニングデータの直接編集や削除を含む効率的な更新を可能にする。トレーサビリティ、解釈可能性、データ駆動による意思決定を強調し、マシンラーニングのための統一された人間理解可能なフレームワークを提供する。
論文参考訳（メタデータ） (2025-10-26T19:45:25Z)
Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。因果効果は肯定的か否定的か? 本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文参考訳（メタデータ） (2025-05-30T07:13:01Z)
Prediction-Powered Inference with Imputed Covariates and Nonuniform Sampling [20.078602767179355]
機械学習予測におけるエラーを適切に説明できないことは、標準的な統計手順を無効にする。我々は、完全なデータが一様でないサンプル(重み付け、成層化、クラスタ化)である場合に適用されるブートストラップの信頼区間と、任意の機能のサブセットが暗示される設定を紹介する。これらの信頼区間は、機械学習モデルの品質を仮定せずに有効であり、機械学習予測を使用しない手法によって得られる区間よりも広くないことを示す。
論文参考訳（メタデータ） (2025-01-30T18:46:43Z)
Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文参考訳（メタデータ） (2024-05-30T10:49:22Z)
Multi-Source Conformal Inference Under Distribution Shift [41.701790856201036]
複数のバイアスのあるデータソースを活用することにより,対象個体数の分布自由な予測区間を得るという課題を考察する。対象集団および源集団における未観測結果の定量値に対する効率的な影響関数を導出する。本稿では、効率向上のための重み付き情報ソースとバイアス低減のための重み付き非情報ソースに対するデータ適応戦略を提案する。
論文参考訳（メタデータ） (2024-05-15T13:33:09Z)
Fair Generalized Linear Mixed Models [0.0]
機械学習の公正性は、データとモデルの不正確さのバイアスが差別的な決定に結びつかないことを保証することを目的としている。両問題を同時に処理できるアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-15T11:42:41Z)
Cross-Prediction-Powered Inference [15.745692520785074]
クロスプレディクション(Cross-prediction)は、機械学習を利用した推論の検証方法である。予測による推論の適応よりもクロス予測の方が一貫して強力であることを示す。
論文参考訳（メタデータ） (2023-09-28T17:01:58Z)
Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文参考訳（メタデータ） (2023-08-03T12:43:21Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Is augmentation effective to improve prediction in imbalanced text datasets? [3.1690891866882236]
データ拡張なしでカットオフを調整することは、オーバーサンプリング手法と同じような結果をもたらすと我々は主張する。この結果は、不均衡なデータを扱うための様々なアプローチの長所と短所の理解に寄与する。
論文参考訳（メタデータ） (2023-04-20T13:07:31Z)
Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文参考訳（メタデータ） (2023-01-23T18:59:28Z)
Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文参考訳（メタデータ） (2020-10-15T16:39:26Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。