論文の概要: CausalReasoningBenchmark: A Real-World Benchmark for Disentangled Evaluation of Causal Identification and Estimation
- arxiv url: http://arxiv.org/abs/2602.20571v1
- Date: Tue, 24 Feb 2026 05:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.620402
- Title: CausalReasoningBenchmark: A Real-World Benchmark for Disentangled Evaluation of Causal Identification and Estimation
- Title(参考訳): CausalReasoningBenchmark: 因果同定と推定のアンタングル評価のための実世界ベンチマーク
- Authors: Ayush Sawarni, Jiyuan Tan, Vasilis Syrgkanis,
- Abstract要約: CausalReasoningBenchmarkは、128の現実世界のデータセットにわたる173のクエリのベンチマークである。
因果推論における失敗と数値実行における誤りを区別する。
- 参考スコア(独自算出の注目度): 18.187891198793455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many benchmarks for automated causal inference evaluate a system's performance based on a single numerical output, such as an Average Treatment Effect (ATE). This approach conflates two distinct steps in causal analysis: identification-formulating a valid research design under stated assumptions-and estimation-implementing that design numerically on finite data. We introduce CausalReasoningBenchmark, a benchmark of 173 queries across 138 real-world datasets, curated from 85 peer-reviewed research papers and four widely-used causal-inference textbooks. For each query a system must produce (i) a structured identification specification that names the strategy, the treatment, outcome, and control variables, and all design-specific elements, and (ii) a point estimate with a standard error. By scoring these two components separately, our benchmark enables granular diagnosis: it distinguishes failures in causal reasoning from errors in numerical execution. Baseline results with a state-of-the-art LLM show that, while the model correctly identifies the high-level strategy in 84 % of cases, full identification-specification correctness drops to only 30 %, revealing that the bottleneck lies in the nuanced details of research design rather than in computation. CausalReasoningBenchmark is publicly available on Hugging Face and is designed to foster the development of more robust automated causal-inference systems.
- Abstract(参考訳): 自動因果推論のための多くのベンチマークは、平均処理効果(ATE)のような単一の数値出力に基づいてシステムの性能を評価する。
このアプローチは因果解析における2つの異なるステップを混同する: 与えられた仮定の下で有効な研究設計を識別形式化し、有限データに基づいて設計を数値的に実装する。
CausalReasoningBenchmarkは、128の現実世界のデータセットにわたる173のクエリをベンチマークし、85のピアレビュー研究論文と4つの広く使われている因果推論教科書からキュレートする。
クエリ毎にシステムが生成しなければならない
一 戦略、処理、結果及び制御変数及びすべての設計固有の要素を指定した構造化識別明細書
(ii)標準誤差のある点推定値。
これら2つの成分を別々に評価することにより,数値実行における誤りと因果推論の失敗を識別する,詳細な診断が可能となった。
その結果, 84%のケースにおいて, モデルが高精度戦略を正しく識別する一方で, 完全な識別特定精度は30%にまで低下し, そのボトルネックは計算ではなく, 研究設計の微妙な細部にあることが明らかとなった。
CausalReasoningBenchmarkはHugging Faceで公開されており、より堅牢な自動因果推論システムの開発を促進するように設計されている。
関連論文リスト
- Learning More from Less: Unlocking Internal Representations for Benchmark Compression [37.69575776639016]
異種隠蔽状態を統一潜在空間に整列させて代表コアセットを構成するREPCOREを導入する。
5つのベンチマークと200以上のモデルの実験は、ランキングの相関と推定精度において、出力ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-31T13:11:39Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Fantastic Bugs and Where to Find Them in AI Benchmarks [28.604919035475188]
本稿では, 応答パターンの統計的解析を利用して, 潜在的に無効な質問にフラグを付ける手法を提案する。
我々のアプローチは、平均スコアがモデル性能を十分に要約する、AI評価で一般的に使用されるコア仮定に基づいています。
提案手法は,9つの広く使用されているベンチマークにおいて,最大84%の精度で問題のある問題を特定するために専門家のレビューをガイドする。
論文 参考訳(メタデータ) (2025-11-20T22:49:21Z) - Score-based Greedy Search for Structure Identification of Partially Observed Linear Causal Models [34.09555821357439]
本稿では,有意性保証を伴う潜伏変数を含む構造を識別するための,最初のスコアに基づく欲求探索手法を提案する。
そこで我々は,このモデルに対して,厳密な探索アルゴリズムであるLatent variable Greedy Equivalence Search (LGES) を設計する。
論文 参考訳(メタデータ) (2025-10-05T21:50:17Z) - Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。
提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文 参考訳(メタデータ) (2025-02-24T07:02:31Z) - Language Models as Causal Effect Generators [48.696932388555894]
シーケンス駆動型構造因果モデル(SD-SCM)を提案する。
SD-SCMは、所望の因果構造に応じて観察的、介入的、および反ファクト的分布からのサンプリングを可能にする。
本稿では, 因果推論のための新しいタイプのベンチマークを提案し, 個別レベルの反事実データを生成し, 治療効果の評価を行う。
論文 参考訳(メタデータ) (2024-11-12T18:50:35Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。