論文の概要: Causal Understanding by LLMs: The Role of Uncertainty
- arxiv url: http://arxiv.org/abs/2509.20088v1
- Date: Wed, 24 Sep 2025 13:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.816339
- Title: Causal Understanding by LLMs: The Role of Uncertainty
- Title(参考訳): LLMによる因果理解:不確実性の役割
- Authors: Oscar Lithgow-Serrano, Vani Kanjirangat, Alessandro Antonucci,
- Abstract要約: 近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
- 参考スコア(独自算出の注目度): 43.87879175532034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent papers show LLMs achieve near-random accuracy in causal relation classification, raising questions about whether such failures arise from limited pretraining exposure or deeper representational gaps. We investigate this under uncertainty-based evaluation, testing whether pretraining exposure to causal examples improves causal understanding >18K PubMed sentences -- half from The Pile corpus, half post-2024 -- across seven models (Pythia-1.4B/7B/12B, GPT-J-6B, Dolly-7B/12B, Qwen-7B). We analyze model behavior through: (i) causal classification, where the model identifies causal relationships in text, and (ii) verbatim memorization probing, where we assess whether the model prefers previously seen causal statements over their paraphrases. Models perform four-way classification (direct/conditional/correlational/no-relationship) and select between originals and their generated paraphrases. Results show almost identical accuracy on seen/unseen sentences (p > 0.05), no memorization bias (24.8% original selection), and output distribution over the possible options is almost flat, with entropic values near the maximum (1.35/1.39), confirming random guessing. Instruction-tuned models show severe miscalibration (Qwen: > 95% confidence, 32.8% accuracy, ECE=0.49). Conditional relations induce highest entropy (+11% vs. direct). These findings suggest that failures in causal understanding arise from the lack of structured causal representation, rather than insufficient exposure to causal examples during pretraining.
- Abstract(参考訳): 近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成し、そのような障害は限定的な事前訓練露光やより深い表現ギャップから生じるかという疑問を提起している。
因果例に対する事前学習が因果理解を改善するかどうかを検証し,7つのモデル(Pythia-1.4B/7B/12B, GPT-J-6B, Dolly-7B/12B, Qwen-7B)で検討した。
私たちはモデル行動を分析します。
一 テキスト中の因果関係を特定する因果分類、及び
(II) 動詞の暗記探索では, 言い回しよりも, 従来見られていた因果関係が好まれているかを評価する。
モデルは4方向分類(direct/conditional/correlational/no-relationship)を行い、原語とその生成されたパラフレーズを選択する。
結果は、見知らぬ文(p > 0.05)、暗記バイアス(24.8%)、可能なオプションの出力分布はほぼ平坦であり、最大値(1.35/1.39)に近いエントロピー値を持ち、ランダムな推測を裏付ける。
指導調整されたモデルは深刻な誤校正を示す(Qwen: > 95% 信頼、32.8% 正確、ECE=0.49)。
条件付き関係は高いエントロピー(+11%対直接)を誘導する。
これらの結果から, 因果的理解の失敗は, 事前訓練中の因果的事例への露出が不十分ではなく, 構造的因果的表現が欠如していることが示唆された。
関連論文リスト
- CLEAR-3K: Assessing Causal Explanatory Capabilities in Language Models [3.137688620241855]
CLEAR-3Kは、ある文が別の文を因果的に説明するかどうかを言語モデルが判断できるかどうかを評価するために設計された、3000のアサーション推論質問のデータセットである。
各質問は、意味的関連性と真の因果的説明的関係を区別するために、アサーションとアサーションのペアと挑戦言語モデルを示す。
論文 参考訳(メタデータ) (2025-06-20T17:35:36Z) - Improving Group Robustness on Spurious Correlation via Evidential Alignment [26.544938760265136]
ディープニューラルネットワークは、しばしば急激な相関、すなわち非因果的特徴と標的の間の表面的関連を学習し、依存する。
既存のメソッドは通常、外部のグループアノテーションや補助的な決定論的モデルを使用することでこの問題を軽減する。
偏りのあるモデルの振る舞いを理解するために不確実性定量化を利用する新しいフレームワークであるエビデンシャルアライメントを提案する。
論文 参考訳(メタデータ) (2025-06-12T22:47:21Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Do Large Language Models Show Biases in Causal Learning? [3.0264418764647605]
因果学習は、利用可能な情報に基づいて因果推論を行う能力を開発するための認知過程である。
本研究では,大言語モデル(LLM)が因果錯覚を発生させるかどうかを考察する。
論文 参考訳(メタデータ) (2024-12-13T19:03:48Z) - Ensembled Prediction Intervals for Causal Outcomes Under Hidden
Confounding [49.1865229301561]
本稿では,既存の因果感受性モデルを用いた部分同定手法を提案し,Caus-Modensがより厳密な結果区間を与えることを示す。
3つの異なるベンチマークのうち最後のものは、未知だが探究可能な基底真理を持つ観測実験にGPT-4を新たに使用することである。
論文 参考訳(メタデータ) (2023-06-15T21:42:40Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Cause-Effect Inference in Location-Scale Noise Models: Maximum
Likelihood vs. Independence Testing [19.23479356810746]
因果発見の根本的な問題は因果推論であり、2つの確率変数間の正しい因果方向を学習する。
最近導入されたヘテロセダスティックな位置スケールノイズ汎関数モデル(LSNM)は、表現力と識別可能性の保証を組み合わせたものである。
雑音分布が正しく特定された場合,LSNMモデル選択が最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2023-01-26T20:48:32Z) - Active Bayesian Causal Inference [72.70593653185078]
因果発見と推論を統合するための完全ベイズ能動学習フレームワークであるアクティブベイズ因果推論(ABCI)を提案する。
ABCIは因果関係のモデルと関心のクエリを共同で推論する。
我々のアプローチは、完全な因果グラフの学習のみに焦点を当てた、いくつかのベースラインよりも、よりデータ効率が高いことを示す。
論文 参考訳(メタデータ) (2022-06-04T22:38:57Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。