論文の概要: Challenges and Considerations in the Evaluation of Bayesian Causal Discovery
- arxiv url: http://arxiv.org/abs/2406.03209v1
- Date: Wed, 5 Jun 2024 12:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:30:28.141918
- Title: Challenges and Considerations in the Evaluation of Bayesian Causal Discovery
- Title(参考訳): ベイジアン因果発見の課題と考察
- Authors: Amir Mohammad Karimi Mamaghan, Panagiotis Tigas, Karl Henrik Johansson, Yarin Gal, Yashas Annadani, Stefan Bauer,
- Abstract要約: 因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。
単一の推定因果グラフとモデルパラメータによる評価に依存する非ベイズ因果発見とは異なり、因果発見はその量の性質に起因する課題を提示する。
評価に最も適した指標についてのコンセンサスはない。
- 参考スコア(独自算出の注目度): 49.0053848090947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representing uncertainty in causal discovery is a crucial component for experimental design, and more broadly, for safe and reliable causal decision making. Bayesian Causal Discovery (BCD) offers a principled approach to encapsulating this uncertainty. Unlike non-Bayesian causal discovery, which relies on a single estimated causal graph and model parameters for assessment, evaluating BCD presents challenges due to the nature of its inferred quantity - the posterior distribution. As a result, the research community has proposed various metrics to assess the quality of the approximate posterior. However, there is, to date, no consensus on the most suitable metric(s) for evaluation. In this work, we reexamine this question by dissecting various metrics and understanding their limitations. Through extensive empirical evaluation, we find that many existing metrics fail to exhibit a strong correlation with the quality of approximation to the true posterior, especially in scenarios with low sample sizes where BCD is most desirable. We highlight the suitability (or lack thereof) of these metrics under two distinct factors: the identifiability of the underlying causal model and the quantity of available data. Both factors affect the entropy of the true posterior, indicating that the current metrics are less fitting in settings of higher entropy. Our findings underline the importance of a more nuanced evaluation of new methods by taking into account the nature of the true posterior, as well as guide and motivate the development of new evaluation procedures for this challenge.
- Abstract(参考訳): 因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。
Bayesian Causal Discovery (BCD)は、この不確実性をカプセル化するための原則的なアプローチを提供する。
単一の推定因果グラフとモデルパラメータを使って評価する非ベイズ的因果発見とは異なり、BCDの評価は、その推定量の性質、すなわち後部分布に起因する課題を提示する。
その結果、研究コミュニティは、近似後部の品質を評価するための様々な指標を提案している。
しかし、これまでは評価に最も適した計量について合意が得られていない。
本研究では,様々な指標を抽出し,それらの限界を理解することによって,この問題を再検討する。
特に,BCDが望まれるサンプルサイズが小さい場合において,多くの既存指標が真の後部への近似の質と強い相関を示さないことが判明した。
我々は、これらの指標の適合性(または欠如)を、基礎となる因果モデルの識別可能性と利用可能なデータの量という2つの異なる要因の下で強調する。
どちらの因子も真の後部のエントロピーに影響を与え、現在の指標がより高いエントロピーの設定に適合していないことを示している。
本研究は, 真後部の性質を考慮し, より曖昧な評価方法の重要性と, 新たな評価手法の開発を指導し, モチベーションを高めることを目的としている。
関連論文リスト
- Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Probabilistic Precision and Recall Towards Reliable Evaluation of
Generative Models [7.770029179741429]
問題に対処する確率論的アプローチに基づいて,P-precision and P-recall (PP&PR)を提案する。
我々のPP&PRは、既存の指標よりも忠実度と多様性を比較するための信頼性の高い見積もりを提供することを示す。
論文 参考訳(メタデータ) (2023-09-04T13:19:17Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Generalizing Off-Policy Evaluation From a Causal Perspective For
Sequential Decision-Making [32.06576007608403]
我々は,OPEの基本的な限界を理解する上で,この協会を明確に強調することが重要な意味を持つと主張している。
この関係がどのようにして自然デシラタを動機付け、因果推定の一般的なセットを考えるかを実証する。
我々は,これらの側面を,大規模OPE研究のための実用的なデシラタとして論じるとともに,実用性でインラインで論じる。
論文 参考訳(メタデータ) (2022-01-20T16:13:16Z) - Deep Causal Reasoning for Recommendations [47.83224399498504]
推薦システム研究の新たなトレンドは、共同創設者の影響を因果的観点から否定することである。
提案手法は多因性マルチアウトカム(MCMO)推論問題としてモデル化する。
MCMOモデリングは,高次元因果空間に付随する観測が不十分なため,高いばらつきをもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2022-01-06T15:00:01Z) - Variational Causal Networks: Approximate Bayesian Inference over Causal
Structures [132.74509389517203]
離散DAG空間上の自己回帰分布をモデル化したパラメトリック変分族を導入する。
実験では,提案した変分後部が真の後部を良好に近似できることを示した。
論文 参考訳(メタデータ) (2021-06-14T17:52:49Z) - SAFEval: Summarization Asks for Fact-based Evaluation [40.02686002117778]
従来のアプローチを拡張し,SAFEvalという統合フレームワークを提案する。
ROUGEやBERTScoreのような確立したメトリクスとは対照的に、SAFEvalは基盤真実参照を必要としない。
SAFEvalは4つの評価次元上の人間の判断との相関を実質的に改善することを示します。
論文 参考訳(メタデータ) (2021-03-23T17:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。