論文の概要: Unveiling Causal Reasoning in Large Language Models: Reality or Mirage?
- arxiv url: http://arxiv.org/abs/2506.21215v1
- Date: Thu, 26 Jun 2025 13:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.088286
- Title: Unveiling Causal Reasoning in Large Language Models: Reality or Mirage?
- Title(参考訳): 大規模言語モデルにおける因果推論:現実かミラージュか?
- Authors: Haoang Chi, He Li, Wenjing Yang, Feng Liu, Long Lan, Xiaoguang Ren, Tongliang Liu, Bo Han,
- Abstract要約: 因果推論能力は、強力な人工知能に向けて大きな言語モデルを進める上で重要である。
大規模言語モデル (LLM) は, 浅い (レベル-1) 因果推論しか実行できないことを示す。
本稿では,LLMの因果推論プロセスに一般知識と目標指向のプロンプトを組み込んだG2-Reasonerを提案する。
- 参考スコア(独自算出の注目度): 62.17959154852391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal reasoning capability is critical in advancing large language models (LLMs) toward strong artificial intelligence. While versatile LLMs appear to have demonstrated capabilities in understanding contextual causality and providing responses that obey the laws of causality, it remains unclear whether they perform genuine causal reasoning akin to humans. However, current evidence indicates the contrary. Specifically, LLMs are only capable of performing shallow (level-1) causal reasoning, primarily attributed to the causal knowledge embedded in their parameters, but they lack the capacity for genuine human-like (level-2) causal reasoning. To support this hypothesis, methodologically, we delve into the autoregression mechanism of transformer-based LLMs, revealing that it is not inherently causal. Empirically, we introduce a new causal Q&A benchmark called CausalProbe-2024, whose corpora are fresh and nearly unseen for the studied LLMs. The LLMs exhibit a significant performance drop on CausalProbe-2024 compared to earlier benchmarks, indicating the fact that they primarily engage in level-1 causal reasoning. To bridge the gap towards level-2 causal reasoning, we draw inspiration from the fact that human reasoning is usually facilitated by general knowledge and intended goals. We propose G^2-Reasoner, a method that incorporates general knowledge and goal-oriented prompts into LLMs' causal reasoning processes. Experiments demonstrate that G^2-Reasoner significantly enhances LLMs' causal reasoning capability, particularly in fresh and counterfactual contexts. This work sheds light on a new path for LLMs to advance towards genuine causal reasoning, going beyond level-1 and making strides towards level-2.
- Abstract(参考訳): 因果推論能力は、大規模言語モデル(LLM)を強力な人工知能に進化させる上で重要である。
汎用LLMは、文脈因果関係を理解し、因果関係の法則に従う応答を提供する能力を示したようであるが、真の因果関係が人間に類似しているかどうかは不明である。
しかし、現在の証拠はそれとは正反対である。
具体的には、LSMは浅い(レベル1)因果推論しか実行できず、主にパラメータに埋め込まれた因果的知識に起因しているが、真の人間のような(レベル2)因果推論の能力は欠如している。
この仮説を方法論的に裏付けるために、トランスフォーマーベースのLCMの自己回帰機構を探索し、本質的に因果関係ではないことを明らかにした。
実験的に、我々はCausalProbe-2024という新しい因果Q&Aベンチマークを導入しました。
LLMは以前のベンチマークと比べてCausalProbe-2024に顕著な性能低下を示しており、主にレベル1因果推論に関わっていることを示している。
レベル2因果推論へのギャップを埋めるために、人間の推論は一般的に一般的な知識と意図された目標によって促進されるという事実からインスピレーションを得る。
G^2-Reasonerは、LLMの因果推論プロセスに汎用知識とゴール指向のプロンプトを組み込む手法である。
G^2-Reasoner は LLM の因果推論能力,特に新鮮および反事実的文脈において著しく向上することを示した。
この研究は、LSMが真の因果推論に向かって進み、レベル1を超えてレベル2に向かって進むための新しい道に光を当てている。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。