論文の概要: Unveiling Causal Reasoning in Large Language Models: Reality or Mirage?
- arxiv url: http://arxiv.org/abs/2506.21215v1
- Date: Thu, 26 Jun 2025 13:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.088286
- Title: Unveiling Causal Reasoning in Large Language Models: Reality or Mirage?
- Title(参考訳): 大規模言語モデルにおける因果推論:現実かミラージュか?
- Authors: Haoang Chi, He Li, Wenjing Yang, Feng Liu, Long Lan, Xiaoguang Ren, Tongliang Liu, Bo Han,
- Abstract要約: 因果推論能力は、強力な人工知能に向けて大きな言語モデルを進める上で重要である。
大規模言語モデル (LLM) は, 浅い (レベル-1) 因果推論しか実行できないことを示す。
本稿では,LLMの因果推論プロセスに一般知識と目標指向のプロンプトを組み込んだG2-Reasonerを提案する。
- 参考スコア(独自算出の注目度): 62.17959154852391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal reasoning capability is critical in advancing large language models (LLMs) toward strong artificial intelligence. While versatile LLMs appear to have demonstrated capabilities in understanding contextual causality and providing responses that obey the laws of causality, it remains unclear whether they perform genuine causal reasoning akin to humans. However, current evidence indicates the contrary. Specifically, LLMs are only capable of performing shallow (level-1) causal reasoning, primarily attributed to the causal knowledge embedded in their parameters, but they lack the capacity for genuine human-like (level-2) causal reasoning. To support this hypothesis, methodologically, we delve into the autoregression mechanism of transformer-based LLMs, revealing that it is not inherently causal. Empirically, we introduce a new causal Q&A benchmark called CausalProbe-2024, whose corpora are fresh and nearly unseen for the studied LLMs. The LLMs exhibit a significant performance drop on CausalProbe-2024 compared to earlier benchmarks, indicating the fact that they primarily engage in level-1 causal reasoning. To bridge the gap towards level-2 causal reasoning, we draw inspiration from the fact that human reasoning is usually facilitated by general knowledge and intended goals. We propose G^2-Reasoner, a method that incorporates general knowledge and goal-oriented prompts into LLMs' causal reasoning processes. Experiments demonstrate that G^2-Reasoner significantly enhances LLMs' causal reasoning capability, particularly in fresh and counterfactual contexts. This work sheds light on a new path for LLMs to advance towards genuine causal reasoning, going beyond level-1 and making strides towards level-2.
- Abstract(参考訳): 因果推論能力は、大規模言語モデル(LLM)を強力な人工知能に進化させる上で重要である。
汎用LLMは、文脈因果関係を理解し、因果関係の法則に従う応答を提供する能力を示したようであるが、真の因果関係が人間に類似しているかどうかは不明である。
しかし、現在の証拠はそれとは正反対である。
具体的には、LSMは浅い(レベル1)因果推論しか実行できず、主にパラメータに埋め込まれた因果的知識に起因しているが、真の人間のような(レベル2)因果推論の能力は欠如している。
この仮説を方法論的に裏付けるために、トランスフォーマーベースのLCMの自己回帰機構を探索し、本質的に因果関係ではないことを明らかにした。
実験的に、我々はCausalProbe-2024という新しい因果Q&Aベンチマークを導入しました。
LLMは以前のベンチマークと比べてCausalProbe-2024に顕著な性能低下を示しており、主にレベル1因果推論に関わっていることを示している。
レベル2因果推論へのギャップを埋めるために、人間の推論は一般的に一般的な知識と意図された目標によって促進されるという事実からインスピレーションを得る。
G^2-Reasonerは、LLMの因果推論プロセスに汎用知識とゴール指向のプロンプトを組み込む手法である。
G^2-Reasoner は LLM の因果推論能力,特に新鮮および反事実的文脈において著しく向上することを示した。
この研究は、LSMが真の因果推論に向かって進み、レベル1を超えてレベル2に向かって進むための新しい道に光を当てている。
関連論文リスト
- Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs [28.556628696390767]
大きな言語モデル(LLM)は印象的な推論機能を示している。
彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。
本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-21T08:15:45Z) - Do Large Language Models Exhibit Spontaneous Rational Deception? [0.913127392774573]
大規模言語モデル (LLM) は、そのように促されるときの判断に有効である。
しかし、どんな条件で自然に騙されるのか?
本研究は, LLMが生み出す自発誤を, 予め登録した実験プロトコルで評価する。
論文 参考訳(メタデータ) (2025-03-31T23:10:56Z) - COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。
出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。
提案手法は,膨大な因果クエリ作成を容易にする。
論文 参考訳(メタデータ) (2024-11-29T06:37:13Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Temporal Knowledge Question Answering via Abstract Reasoning Induction [32.08799860090592]
本研究では,Large Language Models(LLMs)における時間的知識推論の高度化という課題に対処する。
本稿では,時間的推論を知識非依存と知識に基づく2つのフェーズに分割する抽象推論誘導(ARI)フレームワークを提案する。
提案手法は,2つの時間的QAデータセットに対して29.7%と9.27%の相対的な向上を達成している。
論文 参考訳(メタデータ) (2023-11-15T17:46:39Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。