論文の概要: Consistency evaluation of benchmarks used for causal discovery
- arxiv url: http://arxiv.org/abs/2606.01789v1
- Date: Mon, 01 Jun 2026 07:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.482262
- Title: Consistency evaluation of benchmarks used for causal discovery
- Title(参考訳): 因果発見に用いるベンチマークの一貫性評価
- Authors: Yuzhe Zhang, Chihui Chen, Lina Yao, Chen Wang,
- Abstract要約: この研究は、ベンチマーク因果グラフの品質を体系的に研究した最初のものである。
具体的には、科学データベースから関連する研究論文を自動的に取得するパイプラインを設計する。
我々は11の人気のある実世界のベンチマークを評価し、このベンチマークで合計38,081のドメイン論文が得られた。
- 参考スコア(独自算出の注目度): 15.122371237210109
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In graphical causal model, causal discovery aims to construct a causal graph based on numerical data and domain knowledge in plain text. However, the evaluation of causal discovery methods remains a challenge in the area as the progress of domain researches often makes benchmark causal graphs contain mis-aligned knowledge. This problem especially affects the evaluation of large language model (LLM) based causal discovery methods as they are sensitive to the new discoveries in the literature. This work is the first to systematically study the quality of benchmark causal graphs. Specifically, we design a pipeline that automatically retrieves relevant research papers from scientific databases, and prompts LLMs to check the consistency between the benchmark causal graphs and domain research papers. We evaluate 11 popular real-world benchmarks, for which our pipeline in total proceeds 38,081 domain papers. Our results show that popular benchmarks vary significantly in their consistency with domain research, with clear implications for causal discovery research.
- Abstract(参考訳): グラフィカル因果モデルでは、因果探索は、数値データとプレーンテキストにおけるドメイン知識に基づいて因果グラフを構築することを目的としている。
しかし、ドメイン研究の進展により、ベンチマーク因果グラフは誤った知識を含むことが多いため、因果発見手法の評価はこの分野では依然として課題である。
この問題は,新たな発見に敏感である大規模言語モデル(LLM)に基づく因果発見手法の評価に特に影響を及ぼす。
この研究は、ベンチマーク因果グラフの品質を体系的に研究した最初のものである。
具体的には、科学データベースから関連する研究論文を自動的に取得するパイプラインを設計し、ベンチマーク因果グラフとドメイン研究論文の一貫性を確認するようLLMに促す。
我々は11の人気のある実世界のベンチマークを評価し、このベンチマークで合計38,081のドメイン論文が得られた。
この結果から,一般的なベンチマークはドメイン研究との整合性に大きく異なっており,因果発見研究に明確な意味があることが示唆された。
関連論文リスト
- The Robustness of Differentiable Causal Discovery in Misspecified Scenarios [18.797446049830636]
因果発見は、変数間の因果関係をターゲットデータから学習することを目的としている。
異なる因果発見法は,構造的ハミング距離と構造的干渉距離の指標の下で堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2025-10-14T13:33:06Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z) - Out-of-Distribution Detection on Graphs: A Survey [58.47395497985277]
グラフアウト・オブ・ディストリビューション(GOOD)検出は、トレーニング中に見られる分布から逸脱するグラフデータを特定することに焦点を当てる。
既存の手法を,拡張ベース,再構築ベース,情報伝達ベース,分類ベースという4つのタイプに分類する。
本稿では,グラフデータによるユニークな課題を浮き彫りにして,実践的応用と理論的基礎について論じる。
論文 参考訳(メタデータ) (2025-02-12T04:07:12Z) - Retrieving Classes of Causal Orders with Inconsistent Knowledge Bases [0.8192907805418583]
大規模言語モデル(LLM)は、テキストベースのメタデータから因果的知識を抽出するための有望な代替手段として登場した。
LLMは信頼できない傾向があり、幻覚を起こす傾向があり、その限界を考慮に入れた戦略を必要とする。
本稿では,非循環型トーナメントのクラスを導出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T16:37:51Z) - Causal Graph Discovery with Retrieval-Augmented Generation based Large Language Models [23.438388321411693]
因果グラフの回復は、伝統的に統計的推定に基づく手法や、興味のある変数に関する個人の知識に基づいて行われる。
本稿では,大言語モデル(LLM)を利用して,一般的な因果グラフ復元タスクにおける因果関係を推定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T13:02:10Z) - A Survey on Causal Discovery Methods for I.I.D. and Time Series Data [4.57769506869942]
因果発見(CD)アルゴリズムは、関連する観測データからシステムの変数間の因果関係を識別することができる。
本稿では、独立および同一分散データ(I.I.D.)データと時系列データの両方から因果発見を行うために設計された手法について広範な議論を行う。
論文 参考訳(メタデータ) (2023-03-27T09:21:41Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - Trust Your $\nabla$: Gradient-based Intervention Targeting for Causal Discovery [49.084423861263524]
本稿では,GIT を短縮した新しいグラディエント型インターベンションターゲティング手法を提案する。
GITは、介入獲得関数の信号を提供するために勾配に基づく因果探索フレームワークの勾配推定器を「信頼」する。
我々はシミュレーションおよび実世界のデータセットで広範な実験を行い、GITが競合するベースラインと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-11-24T17:04:45Z) - Benchmarking Node Outlier Detection on Graphs [90.29966986023403]
グラフの外れ値検出は、多くのアプリケーションにおいて、新しいが重要な機械学習タスクである。
UNODと呼ばれるグラフに対して、最初の包括的教師なしノード外乱検出ベンチマークを示す。
論文 参考訳(メタデータ) (2022-06-21T01:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。