論文の概要: Inference for Regression with Variables Generated by AI or Machine Learning
- arxiv url: http://arxiv.org/abs/2402.15585v4
- Date: Tue, 10 Dec 2024 14:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:33:30.776317
- Title: Inference for Regression with Variables Generated by AI or Machine Learning
- Title(参考訳): AIや機械学習が生み出す変数による回帰の推論
- Authors: Laura Battaglia, Timothy Christensen, Stephen Hansen, Szymon Sacher,
- Abstract要約: AIおよびML生成変数を「データ」として鼻で処理すると、偏りのある推定値と不正な推測が導かれることを示す。
本研究では, バイアスを補正し, 有効な推定を行うための2つの方法を提案する。 (i) バイアス補正された信頼区間を持つ明示的バイアス補正, (ii) 回帰モデルと興味の変数の最大推定。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: It has become common practice for researchers to use AI-powered information retrieval algorithms or other machine learning methods to estimate variables of economic interest, then use these estimates as covariates in a regression model. We show both theoretically and empirically that naively treating AI- and ML-generated variables as "data" leads to biased estimates and invalid inference. We propose two methods to correct bias and perform valid inference: (i) an explicit bias correction with bias-corrected confidence intervals, and (ii) joint maximum likelihood estimation of the regression model and the variables of interest. Through several applications, we demonstrate that the common approach generates substantial bias, while both corrections perform well.
- Abstract(参考訳): 研究者は、AIによる情報検索アルゴリズムやその他の機械学習手法を使って、経済的関心の変数を推定し、回帰モデルにおいてこれらの推定を共変量として利用するのが一般的になっている。
理論的にも実証的にも,AI生成変数とML生成変数を"データ"として生み出すことにより,偏りのある推定値と不正な推測が導かれることを示す。
バイアスを正し、有効な推論を行うための2つの方法を提案する。
一 バイアス補正された信頼区間を有する明示的バイアス補正、及び
(II)回帰モデルと興味の変数の結合最大推定
いくつかの応用を通して、共通のアプローチが実質的なバイアスを生じさせるのに対し、どちらの補正も良好に機能することを示した。
関連論文リスト
- Debiasing Synthetic Data Generated by Deep Generative Models [40.165159490379146]
合成データ生成のための深部生成モデル(DGM)は、合成データ解析においてバイアスと不正確性を誘導する。
本稿では,DGMが生成する合成データを,特定のデータ解析のためにターゲットとする新たな戦略を提案する。
提案手法は, 偏差を考慮し, 収束率を向上し, 容易に近似された大きなサンプル分散を持つ推定器の計算を容易にする。
論文 参考訳(メタデータ) (2024-11-06T19:24:34Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Restoring balance: principled under/oversampling of data for optimal classification [0.0]
実世界のデータのクラス不均衡は、機械学習タスクに共通のボトルネックをもたらす。
データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされる。
我々は、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。
論文 参考訳(メタデータ) (2024-05-15T17:45:34Z) - Linked shrinkage to improve estimation of interaction effects in
regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。
我々は,選択戦略では難しい推論モデルの可能性を評価する。
私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文 参考訳(メタデータ) (2023-09-25T10:03:39Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Bias-inducing geometries: an exactly solvable data model with fairness
implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Strategic Instrumental Variable Regression: Recovering Causal
Relationships From Strategic Responses [16.874125120501944]
観測可能な特徴と予測したい結果の因果関係を回復するために,戦略的対応を効果的に活用できることが示される。
我々の研究は、機械学習モデルに対する戦略的応答と機器変数(IV)回帰との新たな関係を確立する。
論文 参考訳(メタデータ) (2021-07-12T22:12:56Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。