論文の概要: Personalized Treatment Effect Estimation from Unstructured Data
- arxiv url: http://arxiv.org/abs/2507.20993v1
- Date: Mon, 28 Jul 2025 16:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.215101
- Title: Personalized Treatment Effect Estimation from Unstructured Data
- Title(参考訳): 非構造化データによるパーソナライズされた処理効果の推定
- Authors: Henri Arno, Thomas Demeester,
- Abstract要約: 本研究では,非構造化データのニューラル表現を直接訓練した近似的な「プラグイン」手法を提案する。
次に,2つの理論的基礎を持つ推定器を導入する。
2つのベンチマークデータセットに対する実験により,大規模な非構造化データセット上で直接トレーニング可能なプラグイン方式が,すべての設定において強い経験的性能を実現することが示された。
- 参考スコア(独自算出の注目度): 8.468367158186007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for estimating personalized treatment effects typically rely on structured covariates, limiting their applicability to unstructured data. Yet, leveraging unstructured data for causal inference has considerable application potential, for instance in healthcare, where clinical notes or medical images are abundant. To this end, we first introduce an approximate 'plug-in' method trained directly on the neural representations of unstructured data. However, when these fail to capture all confounding information, the method may be subject to confounding bias. We therefore introduce two theoretically grounded estimators that leverage structured measurements of the confounders during training, but allow estimating personalized treatment effects purely from unstructured inputs, while avoiding confounding bias. When these structured measurements are only available for a non-representative subset of the data, these estimators may suffer from sampling bias. To address this, we further introduce a regression-based correction that accounts for the non-uniform sampling, assuming the sampling mechanism is known or can be well-estimated. Our experiments on two benchmark datasets show that the plug-in method, directly trainable on large unstructured datasets, achieves strong empirical performance across all settings, despite its simplicity.
- Abstract(参考訳): パーソナライズされた治療効果を推定する既存の方法は、通常、構造化された共変量に依存し、非構造化データに適用性を制限する。
しかし、因果推論に構造化されていないデータを活用することは、例えば臨床ノートや医療画像が豊富にある医療において、かなりの応用可能性を持っている。
そこで我々はまず,非構造化データのニューラル表現を直接訓練した,近似的な「プラグイン」手法を提案する。
しかし、これらが全ての不確定情報をキャプチャできなかった場合、この方法は不確定なバイアスを受ける可能性がある。
そこで,2つの理論的根拠付き推定器を導入し,共同創設者の構造的測定を生かしながら,非構造的入力から純粋にパーソナライズされた治療効果を推定する。
これらの構造的測定がデータの非表現的サブセットでのみ利用可能である場合、これらの推定子はサンプリングバイアスに悩まされる。
これを解決するために、サンプリング機構が知られているか、よく見積もることができると仮定して、非一様サンプリングを考慮に入れた回帰ベースの補正を導入する。
2つのベンチマークデータセットに対する実験により、プラグイン法は、大規模な非構造化データセット上で直接トレーニング可能であり、単純さにもかかわらず、すべての設定において強力な経験的性能を達成できることが示された。
関連論文リスト
- Simulating Biases for Interpretable Fairness in Offline and Online Classifiers [0.35998666903987897]
緩和方法は、モデル結果が公平に調整されることを保証するために重要である。
我々は、制御可能なバイアス注入による合成データセット生成のためのフレームワークを開発する。
実験では、オフラインとオンラインの両方の学習アプローチが採用されている。
論文 参考訳(メタデータ) (2025-07-14T11:04:24Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [51.55434084913129]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では,未ラベルデータを利用したメタラーニングに基づく新しい手法を提案する。
実世界のデータセットに挑戦する上で、大きなパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - A Unifying Framework for Robust and Efficient Inference with Unstructured Data [2.07180164747172]
本稿では、非構造化データから導出されるパラメータの効率的な推論を行うための一般的な枠組みを提案する。
提案手法は,既存の推論手法を統一し拡張するフレームワークであるMAR-Sで定式化する。
このフレームワーク内では、記述的および因果推定の両方のための堅牢で効率的な推定器を開発する。
論文 参考訳(メタデータ) (2025-05-01T04:11:25Z) - A Partial Initialization Strategy to Mitigate the Overfitting Problem in CATE Estimation with Hidden Confounding [44.874826691991565]
観察データから条件平均治療効果(CATE)を推定することは、電子商取引、医療、経済などの分野において重要な役割を果たす。
既存の研究は主に、隠れた共同設立者がいないという強い無知の仮定に依存している。
ランダム化制御試験 (RCT) から収集されたデータは、共起に苦しむことはないが、通常は小さなサンプルサイズによって制限される。
論文 参考訳(メタデータ) (2025-01-15T15:58:16Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Spectral Clustering with Variance Information for Group Structure
Estimation in Panel Data [7.712669451925186]
まず、各係数の推定値のばらつきがグループ構造の推定に有用な情報を含んでいることを示す局所解析を行う。
次に、分散情報を明示的に考慮した一般的なパネルデータモデルに対して、観測不能なグルーピングを推定する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T19:16:16Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。