論文の概要: Inference for Regression with Variables Generated from Unstructured Data
- arxiv url: http://arxiv.org/abs/2402.15585v2
- Date: Sun, 24 Mar 2024 12:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 01:25:45.990112
- Title: Inference for Regression with Variables Generated from Unstructured Data
- Title(参考訳): 非構造データから生じる変数による回帰の推論
- Authors: Laura Battaglia, Timothy Christensen, Stephen Hansen, Szymon Sacher,
- Abstract要約: 構造化されていないデータを分析するための2段階の戦略は、経験的に実証可能な設定におけるバイアス付き推論につながる。
本稿では,上流モデルと下流モデルとを併用した有効推論の一段階戦略を提案する。
一段階戦略 (i) はシミュレーションにおけるバイアスを大幅に低減し、 (ii) はCEOタイムユースデータを用いた指導アプリケーションにおいて定量的に重要な効果を持ち、 (iii) 応用研究者が容易に適用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The leading strategy for analyzing unstructured data uses two steps. First, latent variables of economic interest are estimated with an upstream information retrieval model. Second, the estimates are treated as "data" in a downstream econometric model. We establish theoretical arguments for why this two-step strategy leads to biased inference in empirically plausible settings. More constructively, we propose a one-step strategy for valid inference that uses the upstream and downstream models jointly. The one-step strategy (i) substantially reduces bias in simulations; (ii) has quantitatively important effects in a leading application using CEO time-use data; and (iii) can be readily adapted by applied researchers.
- Abstract(参考訳): 構造化されていないデータを分析するための主要な戦略は、2つのステップを使用する。
まず、上流情報検索モデルを用いて、経済利害の潜伏変数を推定する。
第二に、推定値は下流の計量モデルで「データ」として扱われる。
この2段階戦略が実験的に実証可能な環境での偏見推論につながる理由を理論的に論じる。
より構成的に、上流モデルと下流モデルとを併用した有効推論のためのワンステップ戦略を提案する。
ワンステップ戦略
i) シミュレーションにおけるバイアスを大幅に減少させる。
(二)CEOのタイムユースデータを用いた指導アプリケーションにおいて定量的に重要な効果を有すること。
(iii) 応用研究者が容易に適用できる。
関連論文リスト
- Zero-Shot Uncertainty Quantification using Diffusion Probabilistic Models [7.136205674624813]
拡散モデルを用いて異なる回帰問題の解法におけるアンサンブル法の有効性を評価する。
本研究では,様々な回帰タスクにおいて,アンサンブル手法がモデル予測精度を一貫して向上することを実証する。
本研究は,拡散アンサンブルの有用性を包括的に把握し,回帰問題解決における拡散モデルを用いた実践者にとって有用な参考となる。
論文 参考訳(メタデータ) (2024-08-08T18:34:52Z) - Statistical Agnostic Regression: a machine learning method to validate regression models [0.0]
本稿では,機械学習に基づく線形回帰モデルの統計的意義を評価するために,統計的回帰(Agnostic Regression, SAR)を導入する。
我々は、説明的(機能)変数と反応(ラベル)変数の間の集団における線形関係の存在を結論付けるために、少なくとも1-eta$の確率で十分な証拠が存在することを保証するしきい値を定義する。
論文 参考訳(メタデータ) (2024-02-23T09:19:26Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Linked shrinkage to improve estimation of interaction effects in
regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。
我々は,選択戦略では難しい推論モデルの可能性を評価する。
私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文 参考訳(メタデータ) (2023-09-25T10:03:39Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Benign-Overfitting in Conditional Average Treatment Effect Prediction
with Linear Regression [14.493176427999028]
線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。
一方,IPW-learnerは確率スコアが分かっていればリスクをゼロに収束させるが,T-learnerはランダムな割り当て以外の一貫性を達成できないことを示す。
論文 参考訳(メタデータ) (2022-02-10T18:51:52Z) - Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate
Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。
現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。
本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文 参考訳(メタデータ) (2021-05-28T06:59:49Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。