論文の概要: Are you doing better than random guessing? A call for using negative controls when evaluating causal discovery algorithms
- arxiv url: http://arxiv.org/abs/2412.10039v1
- Date: Fri, 13 Dec 2024 11:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:17.152662
- Title: Are you doing better than random guessing? A call for using negative controls when evaluating causal discovery algorithms
- Title(参考訳): ランダムな推測よりも良いのか?因果探索アルゴリズムを評価する際に負の制御を使うための呼びかけ
- Authors: Anne Helby Petersen,
- Abstract要約: ランダムな推測よりも優れた評価基準を提案する。
本研究では,様々な因果発見評価指標の予測行動について,ランダムな推定の下で正確な分布結果を得る。
これらのメトリクスは、特定のシナリオにおいてランダムな推定の下で非常に大きな値を達成できることを示し、したがって、負の制御結果を報告することなく、それらを使用することを警告する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: New proposals for causal discovery algorithms are typically evaluated using simulations and a few select real data examples with known data generating mechanisms. However, there does not exist a general guideline for how such evaluation studies should be designed, and therefore, comparing results across different studies can be difficult. In this article, we propose a common evaluation baseline by posing the question: Are we doing better than random guessing? For the task of graph skeleton estimation, we derive exact distributional results under random guessing for the expected behavior of a range of typical causal discovery evaluation metrics (including precision and recall). We show that these metrics can achieve very large values under random guessing in certain scenarios, and hence warn against using them without also reporting negative control results, i.e., performance under random guessing. We also propose an exact test of overall skeleton fit, and showcase its use on a real data application. Finally, we propose a general pipeline for using random controls beyond the skeleton estimation task, and apply it both in a simulated example and a real data application.
- Abstract(参考訳): 因果探索アルゴリズムの新たな提案は、シミュレーションと、既知のデータ生成機構を持ついくつかの実データ例を用いて評価されるのが一般的である。
しかし、そのような評価研究をどのように設計すべきかに関する一般的なガイドラインは存在しないため、異なる研究間での結果を比較することは困難である。
本稿では,ランダムな推測よりも優れた評価基準を提案する。
グラフスケルトン推定のタスクでは,典型的な因果発見評価指標(精度とリコールを含む)の振る舞いをランダムに推定し,正確な分布を導出する。
これらのメトリクスは、特定のシナリオにおいてランダムな推測の下で非常に大きな値を達成できることを示し、従って、ランダムな推測では、負の制御結果、すなわち、ランダムな推測におけるパフォーマンスを報告することなく、それらを使用することを警告する。
また、スケルトン全体の適合性を正確に検証し、実際のデータアプリケーションでの使用例を示す。
最後に,スケルトン推定タスク以外のランダム制御を利用するための汎用パイプラインを提案し,シミュレーション例と実データアプリケーションの両方に適用する。
関連論文リスト
- Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - Analyzing the Impact of Undersampling on the Benchmarking and
Configuration of Evolutionary Algorithms [3.967483941966979]
限られたデータに基づいて意思決定を行う場合、注意が必要であることを示す。
統計的レースを用いてラン数を動的に調整しても,20%以上の性能損失の例を示す。
論文 参考訳(メタデータ) (2022-04-20T09:53:59Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Improving Efficiency and Accuracy of Causal Discovery Using a
Hierarchical Wrapper [7.570246812206772]
観測データからの因果発見は、科学の多くの分野において重要なツールである。
大規模なサンプルリミットでは、音と完全な因果探索アルゴリズムが導入されている。
しかし、これらのアルゴリズムが使用する統計的テストのパワーを制限するのは、有限のトレーニングデータのみである。
論文 参考訳(メタデータ) (2021-07-11T09:24:49Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Continuous Optimization Benchmarks by Simulation [0.0]
最適化アルゴリズムのテスト、比較、チューニング、理解にはベンチマーク実験が必要である。
以前の評価から得られたデータは、ベンチマークに使用される代理モデルのトレーニングに使用することができる。
本研究では,スペクトルシミュレーションにより連続最適化問題のシミュレーションが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-14T08:50:57Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。