Fugu-MT 論文翻訳(概要): Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes

論文の概要: Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes

arxiv url: http://arxiv.org/abs/2407.14861v1
Date: Sat, 20 Jul 2024 12:42:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 20:32:23.203113
Title: Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes
Title（参考訳）: 治療効果の定量化によるバイアス補正基準の改善
Authors: Alexandre Abraham, Andrés Hoyos Idrobo,
Abstract要約: Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
参考スコア（独自算出の注目度）: 54.18828236350544
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the growing access to administrative health databases, retrospective studies have become crucial evidence for medical treatments. Yet, non-randomized studies frequently face selection biases, requiring mitigation strategies. Propensity score matching (PSM) addresses these biases by selecting comparable populations, allowing for analysis without further methodological constraints. However, PSM has several drawbacks. Different matching methods can produce significantly different Average Treatment Effects (ATE) for the same task, even when meeting all validation criteria. To prevent cherry-picking the best method, public authorities must involve field experts and engage in extensive discussions with researchers. To address this issue, we introduce a novel metric, A2A, to reduce the number of valid matches. A2A constructs artificial matching tasks that mirror the original ones but with known outcomes, assessing each matching method's performance comprehensively from propensity estimation to ATE estimation. When combined with Standardized Mean Difference, A2A enhances the precision of model selection, resulting in a reduction of up to 50% in ATE estimation errors across synthetic tasks and up to 90% in predicted ATE variability across both synthetic and real-world datasets. To our knowledge, A2A is the first metric capable of evaluating outcome correction accuracy using covariates not involved in selection. Computing A2A requires solving hundreds of PSMs, we therefore automate all manual steps of the PSM pipeline. We integrate PSM methods from Python and R, our automated pipeline, a new metric, and reproducible experiments into popmatch, our new Python package, to enhance reproducibility and accessibility to bias correction methods.
Abstract（参考訳）: 行政保健データベースへのアクセスが増加するにつれ、レトロスペクティブ研究は医療治療にとって重要な証拠となっている。しかし、非ランダム化研究はしばしば選択バイアスに直面し、緩和戦略を必要とする。確率スコアマッチング(PSM)は、これらのバイアスに、同等の集団を選択することで対処し、さらなる方法論的な制約を伴わない分析を可能にする。しかし、PSMにはいくつかの欠点がある。異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。チェリーピッキングの最良の方法を避けるために、公共機関はフィールドの専門家を巻き込み、研究者と広範囲にわたる議論を行う必要がある。この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。 A2Aは、元のものを反映した人工的なマッチングタスクを構築し、各マッチングメソッドのパフォーマンスを、確率推定からATE推定まで包括的に評価する。標準平均差(Standardized Mean difference)と組み合わせると、A2Aはモデル選択の精度を高め、合成タスク間でのATE推定誤差を最大50%削減し、合成データセットと実世界のデータセットの両方で予測されるATE変動率を最大90%削減する。我々の知る限り、A2Aは選択に関わらない共変量を用いて結果補正の精度を評価することができる最初の指標である。 A2Aを計算するには、数百のPSMを解く必要があるため、PSMパイプラインのすべての手動ステップを自動化する。我々はPythonとRのPSMメソッド、自動パイプライン、新しいメトリック、再現可能な実験を新しいPythonパッケージであるPopmatchに統合し、再現性とバイアス補正メソッドへのアクセシビリティを向上させる。

関連論文リスト

Transfer Learning of CATE with Kernel Ridge Regression [4.588222946914528]
カーネルリッジ回帰(KRR)を用いた条件平均処理効果(CATE)の重畳適応変換学習法を提案する。我々は, 弱い重なり合いとCATE関数の複雑さの両方に対する適応性を強調した, 急激な非漸近的MSE境界による手法の理論的正当性を提供する。
論文参考訳（メタデータ） (2025-02-17T01:07:45Z)
Minimax Regret Estimation for Generalizing Heterogeneous Treatment Effects with Multisite Data [3.434624857389692]
異種集団の多地点データを用いたロバストなCATE(条件平均処理効果)推定手法を開発した。得られたCATEモデルは、サイト固有CATEモデルの重み付き平均として表される、解釈可能な閉形式解を持つことを示す。
論文参考訳（メタデータ） (2024-12-15T10:00:07Z)
SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文参考訳（メタデータ） (2024-11-14T17:53:35Z)
Causal Machine Learning for Moderation Effects [0.0]
我々は,グループ平均治療効果(GATE)を測定する新しいパラメータBGATEを提案する。主な推定戦略は、未確立の環境での個別処理のための二重/退化機械学習に基づいている。本稿では,自動脱バイアス機械学習と特定の再重み付け手法の2つの方法を提案する。
論文参考訳（メタデータ） (2024-01-16T11:34:59Z)
Instance-based Learning with Prototype Reduction for Real-Time Proportional Myocontrol: A Randomized User Study Demonstrating Accuracy-preserving Data Reduction for Prosthetic Embedded Systems [0.0]
本研究は, 義肢制御におけるジェスチャー検出のためのkNNスキームに基づく学習手法の設計, 実装, 検証を行う。 8チャンネルSEMGアームバンドを用いて,パラメータ化と比例スキームの変化の影響を解析した。
論文参考訳（メタデータ） (2023-08-21T20:15:35Z)
Generalization bounds and algorithms for estimating conditional average treatment effect of dosage [13.867315751451494]
本研究では,治療薬対の条件付き平均因果効果を観測データと仮定の組み合わせで推定する作業について検討した。これは疫学や経済学など、意思決定のために治療薬対を必要とする分野における長年にわたる課題である。この問題に対するいくつかのベンチマークデータセットに対して、実証的に新しい最先端のパフォーマンス結果を示す。
論文参考訳（メタデータ） (2022-05-29T15:26:59Z)
Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。この課題に対処するための新しいクロスバリデーションのような方法論を提供する。本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文参考訳（メタデータ） (2021-12-14T17:53:01Z)
Estimation of Local Average Treatment Effect by Data Combination [3.655021726150368]
治療課題の遵守が不完全である場合には、局所的平均治療効果(LATE)を推定することが重要である。以前提案されたLATE推定法では、関連するすべての変数を1つのデータセットで共同で観測することが必要であった。最小値の定式化を回避し,より簡易なモデル選択を可能とする重み付き最小二乗推定器を提案する。
論文参考訳（メタデータ） (2021-09-11T03:51:48Z)
Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文参考訳（メタデータ） (2021-06-15T06:59:53Z)
Variable selection with missing data in both covariates and outcomes: Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。機械学習はパラメトリックな仮定を弱める。 XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文参考訳（メタデータ） (2021-04-06T20:18:29Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
Double machine learning for sample selection models [0.12891210250935145]
本稿では,サンプル選択や帰属によるサブポピュレーションに対してのみ結果が観察される場合の個別分散処理の評価について考察する。 a)Neyman-orthogonal, Duubly robust, and efficient score function, which suggests the robustness of treatment effect Estimation to moderate regularization biases in the machine learning based Estimation of the outcome, treatment, or sample selection model and (b) sample splitting ( or cross-fitting) to prevent overfitting bias。
論文参考訳（メタデータ） (2020-11-30T19:40:21Z)
Machine learning for causal inference: on the use of cross-fit estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-04-21T23:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。