論文の概要: Realizing LLMs' Causal Potential Requires Science-Grounded, Novel Benchmarks
- arxiv url: http://arxiv.org/abs/2510.16530v1
- Date: Sat, 18 Oct 2025 14:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.026725
- Title: Realizing LLMs' Causal Potential Requires Science-Grounded, Novel Benchmarks
- Title(参考訳): LLMの因果可能性を実現するには, 科学的・新しいベンチマークが必要である
- Authors: Ashutosh Srivastava, Lokesh Nagalapatti, Gautam Jajoo, Aniket Vashishtha, Parameswari Krishnamurthy, Amit Sharma,
- Abstract要約: 因果発見に関するLLM(Large Language Models)による最近の強いパフォーマンスの主張は、重要な欠陥によって損なわれている。
LLMは因果構造を本当に理由付けていますか?
LLMの因果解析の可能性を実現するには、(P.1)最近の科学的研究に基づく堅牢な評価プロトコルを開発し、(P.2)LLM由来の知識とデータ駆動統計を組み合わせたハイブリッドな手法を設計することが必要である。
- 参考スコア(独自算出の注目度): 20.409472830397455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent claims of strong performance by Large Language Models (LLMs) on causal discovery are undermined by a key flaw: many evaluations rely on benchmarks likely included in pretraining corpora. Thus, apparent success suggests that LLM-only methods, which ignore observational data, outperform classical statistical approaches. We challenge this narrative by asking: Do LLMs truly reason about causal structure, and how can we measure it without memorization concerns? Can they be trusted for real-world scientific discovery? We argue that realizing LLMs' potential for causal analysis requires two shifts: (P.1) developing robust evaluation protocols based on recent scientific studies to guard against dataset leakage, and (P.2) designing hybrid methods that combine LLM-derived knowledge with data-driven statistics. To address P.1, we encourage evaluating discovery methods on novel, real-world scientific studies. We outline a practical recipe for extracting causal graphs from recent publications released after an LLM's training cutoff, ensuring relevance and preventing memorization while capturing both established and novel relations. Compared to benchmarks like BNLearn, where LLMs achieve near-perfect accuracy, they perform far worse on our curated graphs, underscoring the need for statistical grounding. Supporting P.2, we show that using LLM predictions as priors for the classical PC algorithm significantly improves accuracy over both LLM-only and purely statistical methods. We call on the community to adopt science-grounded, leakage-resistant benchmarks and invest in hybrid causal discovery methods suited to real-world inquiry.
- Abstract(参考訳): 因果発見に関するLLM(Large Language Models)による最近の強いパフォーマンスの主張は、重要な欠陥によって損なわれている。
したがって、観測データを無視したLCMのみの手法が、古典的な統計的アプローチよりも優れていることが明らかである。
LLMは因果構造を本当に理由付けていますか?
彼らは現実世界の科学的発見に信頼できますか?
LLMの因果解析の可能性を実現するには、(P.1)最近の科学的研究に基づく堅牢な評価プロトコルを開発し、(P.2)LLMの知識をデータ駆動統計と組み合わせたハイブリッドな手法を設計することが必要である。
P.1に対処するために、我々は、新しい現実世界の科学研究における発見方法の評価を奨励する。
本稿は, LLMのトレーニング遮断後の出版物から因果グラフを抽出する実践的レシピを概説し, 確立された関係と新規の関係を捉えつつ, 関連性を確保し, 記憶の防止を図る。
LLMがほぼ完璧な精度を達成しているBNLearnのようなベンチマークと比較すると、これらのベンチマークは我々のキュレートされたグラフにおいてはるかに悪化しており、統計的な接地の必要性を裏付けている。
P.2 をサポートして,従来の PC アルゴリズムの先行手法として LLM 予測を用いると,LLM のみの手法と純粋に統計的手法の両方よりも精度が向上することを示す。
我々はコミュニティに対して、科学に根ざした、リークに抵抗するベンチマークを採用し、現実世界の探究に適したハイブリッド因果発見手法に投資するよう呼びかけている。
関連論文リスト
- Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。