論文の概要: Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation
- arxiv url: http://arxiv.org/abs/2406.08206v1
- Date: Wed, 12 Jun 2024 13:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:46:00.402116
- Title: Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation
- Title(参考訳): 利得源:条件付き平均線量応答推定における分解性能
- Authors: Christopher Bockel-Rickermann, Toon Vanderschueren, Tim Verdonck, Wouter Verbeke,
- Abstract要約: 条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。
本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。
本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
- 参考スコア(独自算出の注目度): 0.9332308328407303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating conditional average dose responses (CADR) is an important but challenging problem. Estimators must correctly model the potentially complex relationships between covariates, interventions, doses, and outcomes. In recent years, the machine learning community has shown great interest in developing tailored CADR estimators that target specific challenges. Their performance is typically evaluated against other methods on (semi-) synthetic benchmark datasets. Our paper analyses this practice and shows that using popular benchmark datasets without further analysis is insufficient to judge model performance. Established benchmarks entail multiple challenges, whose impacts must be disentangled. Therefore, we propose a novel decomposition scheme that allows the evaluation of the impact of five distinct components contributing to CADR estimator performance. We apply this scheme to eight popular CADR estimators on four widely-used benchmark datasets, running nearly 1,500 individual experiments. Our results reveal that most established benchmarks are challenging for reasons different from their creators' claims. Notably, confounding, the key challenge tackled by most estimators, is not an issue in any of the considered datasets. We discuss the major implications of our findings and present directions for future research.
- Abstract(参考訳): 条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。
推定者は、共変量、介入、用量、結果の間の潜在的に複雑な関係を正しくモデル化する必要がある。
近年、機械学習コミュニティは特定の課題をターゲットにしたCADR推定器の開発に大きな関心を示している。
それらの性能は、通常、(半)合成ベンチマークデータセット上の他の方法と比較して評価される。
本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。
確立されたベンチマークは、影響を歪めなければならない複数の課題を伴います。
そこで本研究では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
このスキームを、広範に使用されている4つのベンチマークデータセット上の8つのCADR推定器に適用し、1500近い個別実験を実行する。
以上の結果から,既存のベンチマークはクリエーターの主張とは異なる理由で難しいことが判明した。
特に、ほとんどの推定者が取り組んだ重要な課題であるコンファウンディングは、考慮されたデータセットのいずれにおいても問題ではない。
本研究の意義と今後の方向性について論じる。
関連論文リスト
- Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Using representation balancing to learn conditional-average dose responses from clustered data [5.633848204699653]
関連する用量による介入に対する単位の反応を推定することは、様々な領域において関係している。
本稿では,クラスタ化データによるモデル性能への影響を示すとともに,推定器であるCBRNetを提案する。
論文 参考訳(メタデータ) (2023-09-07T14:17:44Z) - Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。
近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。
実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文 参考訳(メタデータ) (2023-06-08T18:10:37Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - ILDAE: Instance-Level Difficulty Analysis of Evaluation Data [22.043291547405545]
我々は,23データセットの大規模セットアップにおいて,ケースレベル評価データ解析(ILDAE)を行う。
1)計算コストと時間の削減を図り,2)誤例と自明な事例の修復による既存の評価データセットの品質向上,3)アプリケーション要件に基づいて最適なモデルを選択すること,4)将来のデータ生成を導くためのデータセット特性を解析すること,5)Domainのパフォーマンスを確実に推定すること,の5つの新しい応用を実証する。
論文 参考訳(メタデータ) (2022-03-07T00:02:11Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。