Fugu-MT 論文翻訳(概要): Inference for Regression with Variables Generated by AI or Machine Learning

論文の概要: Inference for Regression with Variables Generated by AI or Machine Learning

arxiv url: http://arxiv.org/abs/2402.15585v4
Date: Tue, 10 Dec 2024 14:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:44.91564
Title: Inference for Regression with Variables Generated by AI or Machine Learning
Title（参考訳）: AIや機械学習が生み出す変数による回帰の推論
Authors: Laura Battaglia, Timothy Christensen, Stephen Hansen, Szymon Sacher,
Abstract要約: AIおよびML生成変数を「データ」として鼻で処理すると、偏りのある推定値と不正な推測が導かれることを示す。本研究では, バイアスを補正し, 有効な推定を行うための2つの方法を提案する。 (i) バイアス補正された信頼区間を持つ明示的バイアス補正, (ii) 回帰モデルと興味の変数の最大推定。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It has become common practice for researchers to use AI-powered information retrieval algorithms or other machine learning methods to estimate variables of economic interest, then use these estimates as covariates in a regression model. We show both theoretically and empirically that naively treating AI- and ML-generated variables as "data" leads to biased estimates and invalid inference. We propose two methods to correct bias and perform valid inference: (i) an explicit bias correction with bias-corrected confidence intervals, and (ii) joint maximum likelihood estimation of the regression model and the variables of interest. Through several applications, we demonstrate that the common approach generates substantial bias, while both corrections perform well.
Abstract（参考訳）: 研究者は、AIによる情報検索アルゴリズムやその他の機械学習手法を使って、経済的関心の変数を推定し、回帰モデルにおいてこれらの推定を共変量として利用するのが一般的になっている。理論的にも実証的にも,AI生成変数とML生成変数を"データ"として生み出すことにより,偏りのある推定値と不正な推測が導かれることを示す。バイアスを正し、有効な推論を行うための2つの方法を提案する。一バイアス補正された信頼区間を有する明示的バイアス補正、及び (II)回帰モデルと興味の変数の結合最大推定いくつかの応用を通して、共通のアプローチが実質的なバイアスを生じさせるのに対し、どちらの補正も良好に機能することを示した。

関連論文リスト

Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-09-30T17:52:12Z)
Debiasing Synthetic Data Generated by Deep Generative Models [40.165159490379146]
合成データ生成のための深部生成モデル(DGM)は、合成データ解析においてバイアスと不正確性を誘導する。本稿では,DGMが生成する合成データを,特定のデータ解析のためにターゲットとする新たな戦略を提案する。提案手法は, 偏差を考慮し, 収束率を向上し, 容易に近似された大きなサンプル分散を持つ推定器の計算を容易にする。
論文参考訳（メタデータ） (2024-11-06T19:24:34Z)
Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-06-06T17:37:39Z)
Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文参考訳（メタデータ） (2024-05-19T17:49:33Z)
Restoring balance: principled under/oversampling of data for optimal classification [0.0]
実世界のデータのクラス不均衡は、機械学習タスクに共通のボトルネックをもたらす。データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされる。我々は、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。
論文参考訳（メタデータ） (2024-05-15T17:45:34Z)
Statistical Agnostic Regression: a machine learning method to validate regression models [0.0]
本稿では,機械学習に基づく線形回帰モデルの統計的意義を評価するために,統計的回帰(Agnostic Regression, SAR)を導入する。我々は、説明的(機能)変数と反応(ラベル)変数の間の集団における線形関係の存在を結論付けるために、少なくとも1-eta$の確率で十分な証拠が存在することを保証するしきい値を定義する。
論文参考訳（メタデータ） (2024-02-23T09:19:26Z)
TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。 1)予測共分散は予測平均のランダム性を真に捉えているか? その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文参考訳（メタデータ） (2023-10-29T09:54:03Z)
Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文参考訳（メタデータ） (2023-09-28T13:04:11Z)
Linked shrinkage to improve estimation of interaction effects in regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。我々は,選択戦略では難しい推論モデルの可能性を評価する。私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文参考訳（メタデータ） (2023-09-25T10:03:39Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Bias-inducing geometries: an exactly solvable data model with fairness implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文参考訳（メタデータ） (2022-05-31T16:27:57Z)
DRFLM: Distributionally Robust Federated Learning with Inter-client Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。上記の2つの課題を同時に解決するための一般的な枠組みを提案する。我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文参考訳（メタデータ） (2022-04-16T08:08:29Z)
Benign-Overfitting in Conditional Average Treatment Effect Prediction with Linear Regression [14.493176427999028]
線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。一方,IPW-learnerは確率スコアが分かっていればリスクをゼロに収束させるが,T-learnerはランダムな割り当て以外の一貫性を達成できないことを示す。
論文参考訳（メタデータ） (2022-02-10T18:51:52Z)
Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文参考訳（メタデータ） (2021-10-19T14:24:50Z)
X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。両世界の力を生かすために,我々は新しいX-モデルを提案する。 X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文参考訳（メタデータ） (2021-10-09T13:56:48Z)
Strategic Instrumental Variable Regression: Recovering Causal Relationships From Strategic Responses [16.874125120501944]
観測可能な特徴と予測したい結果の因果関係を回復するために,戦略的対応を効果的に活用できることが示される。我々の研究は、機械学習モデルに対する戦略的応答と機器変数(IV)回帰との新たな関係を確立する。
論文参考訳（メタデータ） (2021-07-12T22:12:56Z)
Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文参考訳（メタデータ） (2021-06-10T06:11:55Z)
MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文参考訳（メタデータ） (2021-06-03T12:59:16Z)
The MELODIC family for simultaneous binary logistic regression in a reduced space [0.5330240017302619]
同時バイナリロジスティック回帰モデリングのためのMELODICファミリーを提案する。モデルは、ロジスティック回帰係数または双極子の観点から解釈することができる。薬物摂取プロファイルに関連する性格特性と、うつ病や不安障害に関連する性格特性の2つの応用が詳細に示されている。
論文参考訳（メタデータ） (2021-02-16T15:47:20Z)
Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文参考訳（メタデータ） (2020-10-15T16:39:26Z)
Doubly Robust Semiparametric Difference-in-Differences Estimators with High-Dimensional Data [15.27393561231633]
不均一な治療効果を推定するための2段半パラメトリック差分差分推定器を提案する。第1段階では、確率スコアを推定するために、一般的な機械学習手法が使用できる。第2段階ではパラメトリックパラメータと未知関数の両方の収束率を導出する。
論文参考訳（メタデータ） (2020-09-07T15:14:29Z)
Machine learning for causal inference: on the use of cross-fit estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-04-21T23:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。