論文の概要: Inference for Regression with Variables Generated from Unstructured Data
- arxiv url: http://arxiv.org/abs/2402.15585v1
- Date: Fri, 23 Feb 2024 19:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:01:59.817272
- Title: Inference for Regression with Variables Generated from Unstructured Data
- Title(参考訳): 非構造データから生じる変数による回帰の推論
- Authors: Laura Battaglia and Timothy Christensen and Stephen Hansen and Szymon
Sacher
- Abstract要約: 構造化されていないデータを分析するための2段階の戦略は、経験的に実証可能な設定におけるバイアス付き推論につながる。
本稿では,上流モデルと下流モデルとを併用した有効推論の一段階戦略を提案する。
一段階戦略 (i) はシミュレーションにおけるバイアスを大幅に低減し、 (ii) はCEOタイムユースデータを用いた指導アプリケーションにおいて定量的に重要な効果を持ち、 (iii) 応用研究者が容易に適用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The leading strategy for analyzing unstructured data uses two steps. First,
latent variables of economic interest are estimated with an upstream
information retrieval model. Second, the estimates are treated as "data" in a
downstream econometric model. We establish theoretical arguments for why this
two-step strategy leads to biased inference in empirically plausible settings.
More constructively, we propose a one-step strategy for valid inference that
uses the upstream and downstream models jointly. The one-step strategy (i)
substantially reduces bias in simulations; (ii) has quantitatively important
effects in a leading application using CEO time-use data; and (iii) can be
readily adapted by applied researchers.
- Abstract(参考訳): 非構造化データを分析するための主要な戦略には2つのステップがある。
まず、上流情報検索モデルを用いて、経済的関心の潜在変数を推定する。
第二に、推定値は下流の計量モデルで「データ」として扱われる。
この2段階戦略が実験的に実証可能な環境での偏見推論につながる理由を理論的に論じる。
より構成的に、上流モデルと下流モデルとを併用した有効推論のためのワンステップ戦略を提案する。
ワンステップ戦略
i) シミュレーションにおけるバイアスを大幅に減少させる。
(二)CEOタイムユースデータを用いた指導アプリケーションにおいて定量的に重要な効果を有すること。
(iii) 応用研究者が容易に適応できる。
関連論文リスト
- Debiasing Synthetic Data Generated by Deep Generative Models [40.165159490379146]
合成データ生成のための深部生成モデル(DGM)は、合成データ解析においてバイアスと不正確性を誘導する。
本稿では,DGMが生成する合成データを,特定のデータ解析のためにターゲットとする新たな戦略を提案する。
提案手法は, 偏差を考慮し, 収束率を向上し, 容易に近似された大きなサンプル分散を持つ推定器の計算を容易にする。
論文 参考訳(メタデータ) (2024-11-06T19:24:34Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Restoring balance: principled under/oversampling of data for optimal classification [0.0]
実世界のデータのクラス不均衡は、機械学習タスクに共通のボトルネックをもたらす。
データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされる。
我々は、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。
論文 参考訳(メタデータ) (2024-05-15T17:45:34Z) - Linked shrinkage to improve estimation of interaction effects in
regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。
我々は,選択戦略では難しい推論モデルの可能性を評価する。
私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文 参考訳(メタデータ) (2023-09-25T10:03:39Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Bias-inducing geometries: an exactly solvable data model with fairness
implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Strategic Instrumental Variable Regression: Recovering Causal
Relationships From Strategic Responses [16.874125120501944]
観測可能な特徴と予測したい結果の因果関係を回復するために,戦略的対応を効果的に活用できることが示される。
我々の研究は、機械学習モデルに対する戦略的応答と機器変数(IV)回帰との新たな関係を確立する。
論文 参考訳(メタデータ) (2021-07-12T22:12:56Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。