論文の概要: CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching
- arxiv url: http://arxiv.org/abs/2602.20094v1
- Date: Mon, 23 Feb 2026 18:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.940406
- Title: CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching
- Title(参考訳): CausalFlip: セマンティックマッチングを超えたLCM因果判断のベンチマーク
- Authors: Yuzhe Wang, Yaochen Zhu, Jundong Li,
- Abstract要約: そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
- 参考スコア(独自算出の注目度): 50.65932158912512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) witness increasing deployment in complex, high-stakes decision-making scenarios, it becomes imperative to ground their reasoning in causality rather than spurious correlations. However, strong performance on traditional reasoning benchmarks does not guarantee true causal reasoning ability of LLMs, as high accuracy may still arise from memorizing semantic patterns instead of analyzing the underlying true causal structures. To bridge this critical gap, we propose a new causal reasoning benchmark, CausalFlip, designed to encourage the development of new LLM paradigm or training algorithms that ground LLM reasoning in causality rather than semantic correlation. CausalFlip consists of causal judgment questions built over event triples that could form different confounder, chain, and collider relations. Based on this, for each event triple, we construct pairs of semantically similar questions that reuse the same events but yield opposite causal answers, where models that rely heavily on semantic matching are systematically driven toward incorrect predictions. To further probe models' reliance on semantic patterns, we introduce a noisy-prefix evaluation that prepends causally irrelevant text before intermediate causal reasoning steps without altering the underlying causal relations or the logic of the reasoning process. We evaluate LLMs under multiple training paradigms, including answer-only training, explicit Chain-of-Thought (CoT) supervision, and a proposed internalized causal reasoning approach that aims to mitigate explicit reliance on correlation in the reasoning process. Our results show that explicit CoT can still be misled by spurious semantic correlations, where internalizing reasoning steps yields substantially improved causal grounding, suggesting that it is promising to better elicit the latent causal reasoning capabilities of base LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)が複雑で高い意思決定シナリオへの展開を目撃するにつれ、素早い相関よりも因果関係の推論を根底に置くことが不可欠になっている。
しかし、従来の推論ベンチマークの強い性能はLLMの真の因果推論能力を保証するものではない。
この重要なギャップを埋めるため,我々は,意味的相関ではなく因果関係にLLM推論を基礎とする新たなLLMパラダイムやトレーニングアルゴリズムの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CausalFlipは、イベントトリプル上に構築された因果判断の質問で構成されている。
これに基づいて、各イベントトリプルに対して、同じイベントを再利用しながら、逆因果解が得られるような意味論的に類似した質問のペアを構築し、セマンティックマッチングに強く依存するモデルは、誤った予測に向けて体系的に駆動される。
モデルのセマンティックなパターンへの依存をさらに調査するため,因果関係や推論過程の論理を変化させることなく,中間因果推論ステップの前に因果関係のないテキストを因果関係にプリペイドするノイズ修正評価を導入する。
回答のみのトレーニング,CoT(Chain-of-Thought)の監督,推論プロセスにおける相関性への明示的依存を軽減することを目的とした内部因果推論アプローチなどを含む,複数の訓練パラダイムの下でLCMを評価した。
以上の結果から,緩やかな意味的相関によっても明らかなCoTは相変わらず混同されうることが示唆され,内部的推論ステップにより因果的根拠が大幅に改善され,基幹LLMの因果的推論能力が向上することが示唆された。
関連論文リスト
- Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification [56.51953062869371]
DoVerifier は、因果表現が与えられた因果グラフから導出可能であるかどうかをdo-calculus と probability theory の規則を用いてチェックする記号検証器である。
因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果
論文 参考訳(メタデータ) (2026-01-29T03:22:58Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Causal Prompting for Implicit Sentiment Analysis with Large Language Models [21.39152516811571]
Implicit Sentiment Analysis (ISA) は、明示的に述べられるのではなく、示唆される感情を推測することを目的としている。
近年,Large Language Models (LLMs) を用いたプロンプトベースの手法がISAで実現されている。
我々は,CoT推論に正面調整を組み込んだ因果的プロンプトフレームワークであるCAPITALを提案する。
論文 参考訳(メタデータ) (2025-07-01T03:01:09Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Cause and Effect: Can Large Language Models Truly Understand Causality? [1.2334534968968969]
本研究では,CARE CA(Content Aware Reasoning Enhancement with Counterfactual Analysis)フレームワークという新しいアーキテクチャを提案する。
提案するフレームワークには,ConceptNetと反ファクト文を備えた明示的な因果検出モジュールと,大規模言語モデルによる暗黙的な因果検出が組み込まれている。
ConceptNetの知識は、因果的発見、因果的識別、反事実的推論といった複数の因果的推論タスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:02:14Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。