論文の概要: Benchmarking LLM Causal Reasoning with Scientifically Validated Relationships
- arxiv url: http://arxiv.org/abs/2510.07231v2
- Date: Thu, 09 Oct 2025 16:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.595669
- Title: Benchmarking LLM Causal Reasoning with Scientifically Validated Relationships
- Title(参考訳): 科学的に検証された関係を考慮したLLM因果推論のベンチマーク
- Authors: Donggyu Lee, Sungwon Park, Yerin Hwang, Hyoshin Kim, Hyunwoo Oh, Jungwon Kim, Meeyoung Cha, Sangyoon Park, Jihee Kim,
- Abstract要約: 因果推論は、真の因果関係を理解するための大言語モデルの基本である。
既存のベンチマークは、合成データへの依存やドメインカバレッジの狭さといった、重大な制限に悩まされている。
本稿では,上位階層の経済誌と財務誌から抽出したカジュアルに同定された関係から構築された新しいベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 21.03106821967686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal reasoning is fundamental for Large Language Models (LLMs) to understand genuine cause-and-effect relationships beyond pattern matching. Existing benchmarks suffer from critical limitations such as reliance on synthetic data and narrow domain coverage. We introduce a novel benchmark constructed from casually identified relationships extracted from top-tier economics and finance journals, drawing on rigorous methodologies including instrumental variables, difference-in-differences, and regression discontinuity designs. Our benchmark comprises 40,379 evaluation items covering five task types across domains such as health, environment, technology, law, and culture. Experimental results on eight state-of-the-art LLMs reveal substantial limitations, with the best model achieving only 57.6\% accuracy. Moreover, model scale does not consistently translate to superior performance, and even advanced reasoning models struggle with fundamental causal relationship identification. These findings underscore a critical gap between current LLM capabilities and demands of reliable causal reasoning in high-stakes applications.
- Abstract(参考訳): 因果推論は、パターンマッチングを超えた真の因果関係を理解するために、LLM(Large Language Models)の基本となる。
既存のベンチマークは、合成データへの依存やドメインカバレッジの狭さといった、重大な制限に悩まされている。
本稿では,上位階層の経済誌と財務誌から抽出したカジュアルに同定された関係から構築された新しいベンチマークを紹介し,楽器変数,差分差,回帰不連続設計などの厳密な方法論を考察する。
本ベンチマークでは, 健康, 環境, 技術, 法律, 文化など5つの分野を対象とした40,379件の評価項目について検討した。
最先端の8つのLCMの実験結果から、最高のモデルは57.6\%の精度しか達成していない。
さらに、モデルスケールは、常に優れたパフォーマンスに変換されず、高度な推論モデルでさえ基本的な因果関係の同定に苦しむ。
これらの結果から,従来のLCM能力と信頼性の高い因果推論の要求との間に重要なギャップがあることが示唆された。
関連論文リスト
- Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning [22.32435186013626]
本稿では,いくつかの潜在能力因子の線形変換としてベンチマーク性能をモデル化した因果表現学習フレームワークを提案する。
このアプローチを6つのベンチマークで評価された1500以上のモデルを含む包括的データセットに適用することにより、観測された性能変動を確実に説明できる簡潔な3ノード線形因果構造を同定する。
論文 参考訳(メタデータ) (2025-06-12T06:07:42Z) - Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks [0.7988085110283119]
Corr2Cause のデータセットによる最近の結果は、最先端の LLM がランダムベースラインをわずかに上回っていることを示している。
我々は、構造化知識グラフを構築するためのモデルを導くことによって、その思考を構造化する能力を備えたモデルを提供する。
Qwen3-32Bモデル(推論モデル)を用いたCorr2Causeデータセットベンチマークのテストサブセットの実験は、標準的なダイレクトプロンプトメソッドよりも大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-05-23T15:37:40Z) - Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference [16.706959860667133]
大規模言語モデル(LLM)が厳密で信頼性の高い統計的因果推論を扱えるかどうかは不明である。
CausalPitfallsベンチマークは、信頼できる因果推論システムの開発を進めるための重要なガイダンスと定量的指標を提供する。
論文 参考訳(メタデータ) (2025-05-19T23:06:00Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.14087963690561]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文 参考訳(メタデータ) (2023-10-24T07:46:10Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。