論文の概要: Causal Strengths and Leaky Beliefs: Interpreting LLM Reasoning via Noisy-OR Causal Bayes Nets
- arxiv url: http://arxiv.org/abs/2512.11909v1
- Date: Wed, 10 Dec 2025 21:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.017129
- Title: Causal Strengths and Leaky Beliefs: Interpreting LLM Reasoning via Noisy-OR Causal Bayes Nets
- Title(参考訳): 因果強度と漏洩信念:ノイズまたは因果ベイズネットによるLLM推論の解釈
- Authors: Hanna Dettki,
- Abstract要約: LLMとヒトの同一のタスクにおける因果推論を評価することにより、それぞれの強みと弱さをより包括的に理解することができる。
研究は、 (Q1) LLMは人間と協調しているか? (Q2) LLMと人間は、タスクレベルで一貫して推論するのか? (Q3) 明確な推論シグネチャを持っているか?
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The nature of intelligence in both humans and machines is a longstanding question. While there is no universally accepted definition, the ability to reason causally is often regarded as a pivotal aspect of intelligence (Lake et al., 2017). Evaluating causal reasoning in LLMs and humans on the same tasks provides hence a more comprehensive understanding of their respective strengths and weaknesses. Our study asks: (Q1) Are LLMs aligned with humans given the \emph{same} reasoning tasks? (Q2) Do LLMs and humans reason consistently at the task level? (Q3) Do they have distinct reasoning signatures? We answer these by evaluating 20+ LLMs on eleven semantically meaningful causal tasks formalized by a collider graph ($C_1\!\to\!E\!\leftarrow\!C_2$ ) under \emph{Direct} (one-shot number as response = probability judgment of query node being one and \emph{Chain of Thought} (CoT; think first, then provide answer). Judgments are modeled with a leaky noisy-OR causal Bayes net (CBN) whose parameters $θ=(b,m_1,m_2,p(C)) \in [0,1]$ include a shared prior $p(C)$; we select the winning model via AIC between a 3-parameter symmetric causal strength ($m_1{=}m_2$) and 4-parameter asymmetric ($m_1{\neq}m_2$) variant.
- Abstract(参考訳): 人間と機械の両方における知性の性質は、長年の疑問である。
普遍的に受け入れられる定義はないが、因果的推論能力はしばしば知性の重要な側面と見なされる(Lake et al , 2017)。
LLMと人間による同じタスクにおける因果推論の評価は、それぞれの強みと弱さをより包括的に理解する。
Q1) LLMは人間と一致しているか?
(Q2)
LLMと人間はタスクレベルで一貫して理屈を定めますか?
(Q3)
彼らには明確な推論のサインがありますか?
我々は、コライダーグラフ(C_1\!
やれ!
E!
\leftarrow\!
C_2$ ) under \emph{Direct} (one-shot number as response = probability judgment of query node is one and \emph{Chain of Thought} (CoT; think first, then provide answer)。
パラメータ $θ=(b,m_1,m_2,p(C)) \in [0,1]$ は、共有前の$p(C)$ を含み、我々は、3パラメータ対称因果強度$m_1{=}m_2$) と 4パラメータ非対称$m_1{\neq}m_2$ の変種の間で AIC を介して勝利モデルを選択する。
関連論文リスト
- WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [34.350505059394536]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Unveiling Causal Reasoning in Large Language Models: Reality or Mirage? [62.17959154852391]
因果推論能力は、強力な人工知能に向けて大きな言語モデルを進める上で重要である。
大規模言語モデル (LLM) は, 浅い (レベル-1) 因果推論しか実行できないことを示す。
本稿では,LLMの因果推論プロセスに一般知識と目標指向のプロンプトを組み込んだG2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-26T13:11:01Z) - Conditional and Modal Reasoning in Large Language Models [1.999925939110439]
我々は条件やモーダルを含む推論パターンに焦点を当てる。
私たちがテストしたすべてのLLMは、条件やモダルでいくつかの基本的な間違いを犯しました。
最高のLCMでさえ、モーダル推論において基本的な誤りを犯す。
論文 参考訳(メタデータ) (2024-01-30T16:56:54Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Probabilistic Tree-of-thought Reasoning for Answering
Knowledge-intensive Complex Questions [93.40614719648386]
大規模言語モデル(LLM)は、知識集約的な複雑な質問にチェーン・オブ・シント(CoT)推論で答えることができる。
最近の研究は、CoT推論を強化するための外部知識の回収に向けられている。
確率的ツリー・オブ・シント推論(ProbTree)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:52:37Z) - Forward-Backward Reasoning in Large Language Models for Mathematical Verification [65.9495774606273]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
候補解の検証に後方推論を導入する。
検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-15T13:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。