論文の概要: Measuring Model Performance in the Presence of an Intervention
- arxiv url: http://arxiv.org/abs/2511.05805v1
- Date: Sat, 08 Nov 2025 02:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.586861
- Title: Measuring Model Performance in the Presence of an Intervention
- Title(参考訳): 干渉の有無によるモデル性能の測定
- Authors: Winston Chen, Michael W. Sjoding, Jenna Wiens,
- Abstract要約: 社会的影響アプリケーションのための多くのAIでは、結果に影響を与える介入の存在は評価に偏っている。
RCTはランダムに介入を割り当て、制御グループからのデータをバイアスのないモデル評価に使用できる。
治療群からのデータを重み付けする非バイアスモデル評価手法であるニュアンスパラメータ重み付け(NPW)を提案する。
- 参考スコア(独自算出の注目度): 11.381587523287495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI models are often evaluated based on their ability to predict the outcome of interest. However, in many AI for social impact applications, the presence of an intervention that affects the outcome can bias the evaluation. Randomized controlled trials (RCTs) randomly assign interventions, allowing data from the control group to be used for unbiased model evaluation. However, this approach is inefficient because it ignores data from the treatment group. Given the complexity and cost often associated with RCTs, making the most use of the data is essential. Thus, we investigate model evaluation strategies that leverage all data from an RCT. First, we theoretically quantify the estimation bias that arises from na\"ively aggregating performance estimates from treatment and control groups, and derive the condition under which this bias leads to incorrect model selection. Leveraging these theoretical insights, we propose nuisance parameter weighting (NPW), an unbiased model evaluation approach that reweights data from the treatment group to mimic the distributions of samples that would or would not experience the outcome under no intervention. Using synthetic and real-world datasets, we demonstrate that our proposed evaluation approach consistently yields better model selection than the standard approach, which ignores data from the treatment group, across various intervention effect and sample size settings. Our contribution represents a meaningful step towards more efficient model evaluation in real-world contexts.
- Abstract(参考訳): AIモデルは、しばしば関心の結果を予測する能力に基づいて評価される。
しかし、社会影響アプリケーションのための多くのAIでは、結果に影響を与える介入の存在は評価に偏っている可能性がある。
ランダム化制御試験(RCT)は、ランダムに介入を割り当て、制御グループからのデータをバイアスのないモデル評価に使用できるようにする。
しかし、治療群からのデータを無視しているため、このアプローチは非効率である。
RCTに関連する複雑さとコストを考えると、データを最大限活用することが不可欠である。
そこで本研究では,RCTの全データを活用するモデル評価戦略について検討する。
まず, 処理群と制御群とのパフォーマンス推定値から生じる推定バイアスを理論的に定量化し, このバイアスが誤ったモデル選択につながる条件を導出する。
これらの理論的知見を生かして、非バイアスモデル評価手法であるニュアンスパラメータ重み付け(NPW)を提案する。
提案した評価手法は, 各種介入効果とサンプルサイズ設定を通じて, 処理群からのデータを無視する標準手法よりも優れたモデル選択が得られることを示す。
我々の貢献は、現実の文脈におけるより効率的なモデル評価への意味のある一歩である。
関連論文リスト
- Robust estimation of heterogeneous treatment effects in randomized trials leveraging external data [4.777323087050061]
本研究では,条件付き平均治療効果(CATE)を推定するモデル非依存学習者QR-learnerを提案する。
これにより、トライアルのみのCATE学習者に対して平均2乗誤差を低減でき、外部データがトライアルに一致していない場合でも真のCATEを復元することが保証される。
論文 参考訳(メタデータ) (2025-07-04T16:01:05Z) - Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness [49.35494016290887]
関係する人口を表わすが、実世界の格差を反映するデータである場合、サブグループ間での平等なパフォーマンスは、信頼できない公平さの尺度であることを示す。
本フレームワークでは, 因果関係の明示的な仮定と分析を相補して, 相反や分布変化の制御を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:40:31Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Estimating treatment effects from single-arm trials via latent-variable
modeling [14.083487062917085]
すべての患者が治療グループに属しているシングルアーム臨床試験は、有効な代替手段であるが、外部コントロールグループへのアクセスが必要である。
このシナリオに対して、同定可能なディープ潜在変数モデルを提案する。
その結果, 直接治療効果評価と患者マッチングによる効果評価の両面で, 性能が向上した。
論文 参考訳(メタデータ) (2023-11-06T10:12:54Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。
本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Double machine learning for sample selection models [0.12891210250935145]
本稿では,サンプル選択や帰属によるサブポピュレーションに対してのみ結果が観察される場合の個別分散処理の評価について考察する。
a)Neyman-orthogonal, Duubly robust, and efficient score function, which suggests the robustness of treatment effect Estimation to moderate regularization biases in the machine learning based Estimation of the outcome, treatment, or sample selection model and (b) sample splitting ( or cross-fitting) to prevent overfitting bias。
論文 参考訳(メタデータ) (2020-11-30T19:40:21Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Learning Overlapping Representations for the Estimation of
Individualized Treatment Effects [97.42686600929211]
観測データから代替案の可能性を推定することは難しい問題である。
入力のドメイン不変表現を学習するアルゴリズムは、しばしば不適切であることを示す。
我々は,様々なベンチマークデータセットの最先端性を大幅に向上させる,ディープカーネル回帰アルゴリズムと後続正規化フレームワークを開発した。
論文 参考訳(メタデータ) (2020-01-14T12:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。