論文の概要: Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code
- arxiv url: http://arxiv.org/abs/2510.01539v1
- Date: Thu, 02 Oct 2025 00:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.917867
- Title: Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code
- Title(参考訳): Executable Counterfactuals: コードによるLLMの因果推論の改善
- Authors: Aniket Vashishtha, Qirun Dai, Hongyuan Mei, Amit Sharma, Chenhao Tan, Hao Peng,
- Abstract要約: コードや数学の問題を通した因果推論を運用するフレームワークである実行可能逆ファクトアルを導入する。
その結果,o4-mini や Claude-4-Sonnet などの SOTA モデルでは,介入による精度 (25-40%) の低下が認められた。
また、コードで訓練されたモデルが、反実数ワード問題に一般化するかどうかを検証した。
- 参考スコア(独自算出の注目度): 29.382261465478248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual reasoning, a hallmark of intelligence, consists of three steps: inferring latent variables from observations (abduction), constructing alternatives (interventions), and predicting their outcomes (prediction). This skill is essential for advancing LLMs' causal understanding and expanding their applications in high-stakes domains such as scientific research. However, existing efforts in assessing LLM's counterfactual reasoning capabilities tend to skip the abduction step, effectively reducing to interventional reasoning and leading to overestimation of LLM performance. To address this, we introduce executable counterfactuals, a novel framework that operationalizes causal reasoning through code and math problems. Our framework explicitly requires all three steps of counterfactual reasoning and enables scalable synthetic data creation with varying difficulty, creating a frontier for evaluating and improving LLM's reasoning. Our results reveal substantial drop in accuracy (25-40%) from interventional to counterfactual reasoning for SOTA models like o4-mini and Claude-4-Sonnet. To address this gap, we construct a training set comprising counterfactual code problems having if-else condition and test on out-of-domain code structures (e.g. having while-loop); we also test whether a model trained on code would generalize to counterfactual math word problems. While supervised finetuning on stronger models' reasoning traces improves in-domain performance of Qwen models, it leads to a decrease in accuracy on OOD tasks such as counterfactual math problems. In contrast, reinforcement learning induces the core cognitive behaviors and generalizes to new domains, yielding gains over the base model on both code (improvement of 1.5x-2x) and math problems. Analysis of the reasoning traces reinforces these findings and highlights the promise of RL for improving LLMs' counterfactual reasoning.
- Abstract(参考訳): カウンターファクト推論(英: Counterfactual reasoning)とは、観測(吸収)から潜伏変数を推論し、代替案(干渉)を構築し、結果(予測)を予測する3つのステップである。
この技術は、LLMの因果理解を推進し、科学研究のような高度な分野への応用を拡大するために欠かせない。
しかし, LLMの非現実的推論能力を評価する既存の取り組みは, 退行ステップを省略し, 介入推論を効果的に減らし, LLM性能を過大評価する傾向にある。
これを解決するために、コードや数学の問題を通じて因果推論を運用する新しいフレームワークである実行可能対実法を導入する。
筆者らのフレームワークは, 対実的推論の3段階全てを明示的に要求し, 様々な難易度でスケーラブルな合成データ作成を可能にし, LLMの推論を評価し改善するためのフロンティアを創出する。
その結果,o4-mini や Claude-4-Sonnet などの SOTA モデルでは,介入による精度 (25-40%) の低下が認められた。
このギャップに対処するため、我々は、if-else条件の反実コード問題を含むトレーニングセットを構築し、ドメイン外のコード構造(例えば、 while-loop)でテストし、コードでトレーニングされたモデルが反実数ワード問題に一般化するかどうかを検証した。
より強いモデルの推論トレースの教師付き微調整はQwenモデルのドメイン内性能を向上させるが、反実数問題などのOODタスクの精度は低下する。
対照的に、強化学習はコア認知の振る舞いを誘導し、新しい領域に一般化し、コード(1.5x-2xの改良)と数学の問題の両方のベースモデルよりも利益をもたらす。
推論の痕跡の分析はこれらの知見を補強し、LLMの非現実的推論を改善するためのRLの約束を強調している。
関連論文リスト
- Evaluating Intermediate Reasoning of Code-Assisted Large Language Models for Mathematics [15.695635219034328]
我々は,コード支援型LCM生成プログラムを,数理推論タスクに応答して詳細に解析する。
この結果から, モデルの性能が, 問題の解法として実装された論理に大きく影響していることが示唆された。
論文 参考訳(メタデータ) (2025-04-24T15:34:24Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。
我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文 参考訳(メタデータ) (2025-02-16T06:19:37Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [10.421832675327712]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は 比較的未調査です
後方推論は 前方推論の「逆」と見なすことができます
性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。