論文の概要: Failure Modes of LLMs for Causal Reasoning on Narratives
- arxiv url: http://arxiv.org/abs/2410.23884v5
- Date: Sun, 15 Jun 2025 00:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 13:01:17.389363
- Title: Failure Modes of LLMs for Causal Reasoning on Narratives
- Title(参考訳): ナラティブに対する因果推論のためのLCMの故障モード
- Authors: Khurram Yamin, Shantanu Gupta, Gaurav R. Ghosal, Zachary C. Lipton, Bryan Wilder,
- Abstract要約: 世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
- 参考スコア(独自算出の注目度): 51.19592551510628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to robustly identify causal relationships is essential for autonomous decision-making and adaptation to novel scenarios. However, accurately inferring causal structure requires integrating both world knowledge and abstract logical reasoning. In this work, we investigate the interaction between these two capabilities through the representative task of causal reasoning over narratives. Through controlled synthetic, semi-synthetic, and real-world experiments, we find that state-of-the-art large language models (LLMs) often rely on superficial heuristics -- for example, inferring causality from event order or recalling memorized world knowledge without attending to context. Furthermore, we show that simple reformulations of the task can elicit more robust reasoning behavior. Our evaluation spans a range of causal structures, from linear chains to complex graphs involving colliders and forks. These findings uncover systematic patterns in how LLMs perform causal reasoning and lay the groundwork for developing methods that better align LLM behavior with principled causal inference.
- Abstract(参考訳): 因果関係をしっかり特定する能力は、自律的な意思決定と新しいシナリオへの適応に不可欠である。
しかし、因果構造を正確に推測するには、世界知識と抽象論理的推論の両方を統合する必要がある。
本研究では,これら2つの能力間の相互作用を,物語に対する因果推論の代表的なタスクを通して検討する。
制御された合成、半合成、実世界の実験を通して、最先端の大規模言語モデル(LLM)は、しばしば表面的ヒューリスティック(表面的ヒューリスティック)に依存している。
さらに,タスクの単純な再構成により,より堅牢な推論行動が引き起こされることを示す。
我々の評価は、線形鎖から衝突器やフォークを含む複雑なグラフまで、様々な因果構造に及んでいる。
これらの結果から, LLMが因果推論を行う方法の体系的パターンが明らかになり, LLMの行動と因果推論の原理的整合性を改善する手法の開発の基礎となった。
関連論文リスト
- ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。
出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。
提案手法は,膨大な因果クエリ作成を容易にする。
論文 参考訳(メタデータ) (2024-11-29T06:37:13Z) - Counterfactual Causal Inference in Natural Language with Large Language Models [9.153187514369849]
本稿では,自然言語からの因果構造発見と因果推論手法を提案する。
まず LLM を用いてテキストデータからインスタンス化された因果変数を抽出し,因果グラフを構築する。
次に、推定されたグラフに対して反実数推論を行う。
論文 参考訳(メタデータ) (2024-10-08T21:53:07Z) - From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? [51.42906577386907]
本研究では,因果発見タスクにおけるLarge Language Models(LLM)の性能に影響を与える要因について検討する。
因果関係の頻度が高いことは、より良いモデル性能と相関し、トレーニング中に因果関係の情報に広範囲に暴露することで、因果関係の発見能力を高めることを示唆している。
論文 参考訳(メタデータ) (2024-07-29T01:45:05Z) - LLMs Are Prone to Fallacies in Causal Inference [33.9881589703843]
近年の研究では, LLMから因果事実を効果的に抽出できることが示されている。
本研究は、モデルが記憶できる事前学習データにおいて、この成功が明示的に記述された因果事実に限られているかどうかを考察する。
論文 参考訳(メタデータ) (2024-06-18T00:14:07Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。
本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。
実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。