論文の概要: Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation
- arxiv url: http://arxiv.org/abs/2604.10511v1
- Date: Sun, 12 Apr 2026 08:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.065109
- Title: Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation
- Title(参考訳): 迅速に考える、誤った考え:直感性は政策評価におけるLLMの反現実的推論を調節する
- Authors: Yanjie He,
- Abstract要約: 大規模言語モデル (LLM) は因果推論や反ファクト推論にますます利用されているが、現実の政策評価における信頼性はいまだ未定である。
経済・社会科学から引き出された40の実証的政策評価事例のベンチマークを構築した。
混合効果のロジスティック回帰を用いて結果を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy evaluation remains underexplored. We construct a benchmark of 40 empirical policy evaluation cases drawn from economics and social science, each grounded in peer-reviewed evidence and classified by intuitiveness -- whether the empirical finding aligns with (obvious), is unclear relative to (ambiguous), or contradicts (counter-intuitive) common prior expectations. We evaluate four frontier LLMs across five prompting strategies with 2,400 experimental trials and analyze the results using mixed-effects logistic regression. Our findings reveal three key results: (1) a chain-of-thought (CoT) paradox, where chain-of-thought prompting dramatically improves performance on obvious cases but this benefit is nearly eliminated on counter-intuitive ones (interaction OR = 0.053, $p < 0.001$); (2) intuitiveness as the dominant factor, explaining more variance than model choice or prompting strategy (ICC = 0.537); and (3) a knowledge-reasoning dissociation, where citation-based familiarity is unrelated to accuracy ($p = 0.53$), suggesting models possess relevant knowledge but fail to reason with it when findings contradict intuition. We frame these results through the lens of dual-process theory (System 1 vs. System 2) and argue that current LLMs' "slow thinking" may be little more than "slow talking" -- they produce the form of deliberative reasoning without the substance.
- Abstract(参考訳): 大規模言語モデル (LLM) は因果推論や反ファクト推論にますます利用されているが、現実の政策評価における信頼性はいまだ未定である。
我々は,経済・社会科学から引き出された40件の実証的政策評価事例のベンチマークを構築し,それぞれがピアレビューされた証拠に基礎を置いて,直観的に分類した。
実験では,5つの戦略にまたがる4つのフロンティアLSMを2,400の実験で評価し,混合効果のロジスティック回帰を用いて解析した。
その結果,(1)チェーン・オブ・シンクレット(CoT)パラドックス,(1)チェーン・オブ・シンクレットが顕著なケースで性能を劇的に向上させるが,この利点は反直感的(相互作用 OR = 0.053, $p < 0.001$);(2)直感性を支配的要因として説明し,モデル選択やプロンプト戦略(ICC = 0.537),(3)引用に基づく親しみが正確さとは無関係である知識推論解離(p = 0.53$)という3つの重要な結果が得られた。
両プロセス理論のレンズを通してこれらの結果をフレーム化する(システム1対システム)
そして、現在のLLMの「スロー思考」は「スロートーク」に過ぎず、物質を含まない熟考的推論の形式を生み出していると論じている。
関連論文リスト
- CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Beyond Hallucinations: The Illusion of Understanding in Large Language Models [0.0]
大規模言語モデル(LLM)は、人間のコミュニケーションや意思決定に深く浸透している。
彼らはあいまいさ、偏見、言語自体に固有の真理への直接アクセスの欠如を継承する。
本稿は,LLMがシステム1認知を大規模に運用する,高速,連想的,説得的だが,反射やファルシフィケーションは行わない,と論じる。
論文 参考訳(メタデータ) (2025-10-16T13:19:44Z) - Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。
本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。
本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [19.354141845315276]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。