論文の概要: A Unifying Framework for Robust and Efficient Inference with Unstructured Data
- arxiv url: http://arxiv.org/abs/2505.00282v2
- Date: Tue, 08 Jul 2025 19:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 15:30:52.277199
- Title: A Unifying Framework for Robust and Efficient Inference with Unstructured Data
- Title(参考訳): 非構造化データを用いたロバストかつ効率的な推論のための統一フレームワーク
- Authors: Jacob Carlson, Melissa Dell,
- Abstract要約: 本稿では、非構造化データから導出されるパラメータの効率的な推論を行うための一般的な枠組みを提案する。
提案手法は,既存の推論手法を統一し拡張するフレームワークであるMAR-Sで定式化する。
このフレームワーク内では、記述的および因果推定の両方のための堅牢で効率的な推定器を開発する。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a general framework for conducting efficient inference on parameters derived from unstructured data, which include text, images, audio, and video. Economists have long used unstructured data by first extracting low-dimensional structured features (e.g., the topic or sentiment of a text), since the raw data are too high-dimensional and uninterpretable to include directly in empirical analyses. The rise of deep neural networks has accelerated this practice by greatly reducing the costs of extracting structured data at scale, but neural networks do not make generically unbiased predictions. This potentially propagates bias to the downstream estimators that incorporate imputed structured data, and the availability of different off-the-shelf neural networks with different biases moreover raises p-hacking concerns. To address these challenges, we reframe inference with unstructured data as a problem of missing structured data, where structured variables are imputed from high-dimensional unstructured inputs. This perspective allows us to apply classic results from semiparametric inference, leading to estimators that are valid, efficient, and robust. We formalize this approach with MAR-S, a framework that unifies and extends existing methods for debiased inference using machine learning predictions, connecting them to familiar problems such as causal inference. Within this framework, we develop robust and efficient estimators for both descriptive and causal estimands and address challenges like inference with aggregated and transformed missing structured data-a common scenario that is not covered by existing work. These methods-and the accompanying implementation package-provide economists with accessible tools for constructing unbiased estimators using unstructured data in a wide range of applications, as we demonstrate by re-analyzing several influential studies.
- Abstract(参考訳): 本稿では,テキスト,画像,音声,ビデオを含む非構造化データから導出されるパラメータの効率的な推論を行うための一般的な枠組みを提案する。
エコノミストは、まず低次元構造的特徴(例えばテキストの話題や感情)を抽出することで、長い間非構造的データを使用してきた。
ディープニューラルネットワークの台頭は、大規模に構造化されたデータを抽出するコストを大幅に削減することで、このプラクティスを加速した。
これにより、不規則な構造化データを組み込んだ下流推定器へのバイアスが伝播し、異なるバイアスを持つオフザシェルフニューラルネットワークが利用可能になったことで、p-hackingの懸念が高まる可能性がある。
これらの課題に対処するために、構造化された変数が高次元の非構造的入力からインプットされるような構造的データ不足の問題として、非構造的データによる推論を再構成する。
この観点では、半パラメトリック推論から古典的な結果を適用することができ、有効で効率的で堅牢な推定器が導かれる。
MAR-Sは、機械学習予測を用いて既存の推論の偏りを解消し拡張し、因果推論のようなよく知られた問題に接続するフレームワークである。
このフレームワーク内では、記述的および因果推定の両方のための堅牢で効率的な推定器を開発し、集約的および変換された構造化データによる推論のような課題に対処する。
これらの手法とそれに伴うパッケージ提供経済学者は、様々なアプリケーションで非構造データを用いて非構造的推定器を構築するためのアクセス可能なツールを持ち、いくつかの影響力のある研究を再分析した。
関連論文リスト
- Financial Data Analysis with Robust Federated Logistic Regression [7.68275287892947]
本研究では,データを複数のクライアントやロケーションに分散するフェデレートされた環境での財務データの解析に焦点をあてる。
我々は,これらの目標のバランスを保とうとする,ロジスティックなロジスティック回帰に基づく堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T20:42:24Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Graph Structure Learning with Interpretable Bayesian Neural Networks [10.957528713294874]
独立に解釈可能なパラメータを持つ新しい反復を導入する。
これらのパラメータは、エッジ空間のような推定グラフの特性に影響を与える。
これらの反復を解いた後、そのようなグラフの特徴に関する事前知識は、事前分布を形作る。
高速な実行とパラメータ効率により、高忠実度後部近似が可能となる。
論文 参考訳(メタデータ) (2024-06-20T23:27:41Z) - Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。
NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。
各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文 参考訳(メタデータ) (2024-04-27T21:00:38Z) - REST: Enhancing Group Robustness in DNNs through Reweighted Sparse
Training [49.581884130880944]
ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。
しかし、彼らは推論中に一部の少数派でうまく行動するのに苦労することが多い。
論文 参考訳(メタデータ) (2023-12-05T16:27:54Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Complex Sequential Data Analysis: A Systematic Literature Review of
Existing Algorithms [0.9649642656207869]
本稿では、不規則なパターンを持つデータセットの分析にディープラーニングフレームワークを使うことに対する過去のアプローチについてレビューする。
従来のディープラーニング手法は、これらのデータセットを解析しようとすると、パフォーマンスが悪く、あるいは失敗する。
ディープラーニングフレームワークの性能は,平均絶対誤差とルート平均二乗誤差精度の指標を用いて評価された。
論文 参考訳(メタデータ) (2020-07-22T17:53:00Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。