論文の概要: Mathematical Reasoning via Intervention-Based Time-Series Causal Discovery Using LLMs as Concept Mastery Simulators
- arxiv url: http://arxiv.org/abs/2605.07600v1
- Date: Fri, 08 May 2026 11:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.013937
- Title: Mathematical Reasoning via Intervention-Based Time-Series Causal Discovery Using LLMs as Concept Mastery Simulators
- Title(参考訳): LLMを概念熟達シミュレータとして用いたインターベンションに基づく時系列因果発見による数学的推論
- Authors: Tsuyoshi Okita,
- Abstract要約: LLM自体を介入シミュレータとして利用するCIKA(Causal Intervention for Knowledge Activation)を提案する。
プロンプトは概念状態をマスターされた状態に設定し、正しさの変化は因果効果を推定する。
我々は、この量をICP(Interventional Capability Probe)として定式化し、LLMが与えられた概念を利用できるかどうかを診断する。
- 参考スコア(独自算出の注目度): 2.0013177824602444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent methods for improving LLM mathematical reasoning, whether through MCTS-based test-time search or causal graph-guided knowledge injection, cannot identify which concepts causally contribute to a correct answer, as the observed association may be spurious, driven by confounders such as problem difficulty. We propose CIKA (Causal Intervention for Knowledge Activation), a framework that uses the LLM itself as an interventional simulator: a prompt sets the concept state to ``mastered'' and the correctness change estimates the causal effect. We formalize this quantity as an Interventional Capability Probe (ICP), which diagnoses whether the LLM can use a given concept -- distinct from merely possessing knowledge. Because the intervention exogenously sets the concept state independently of problem difficulty, ICP separates confounding that observational methods cannot. On 67 screened problems, the ICP of the top-ranked concept (+0.219) is significantly larger than that of the negative control (+0.039; paired $t$-test, $p < 10^{-6}$, Cohen's $d = 0.86$), confirming that the probe discriminates causally relevant concepts from irrelevant ones. Analysis of 601 Omni-MATH problems further shows that solved problems have 6.1$\times$ higher ATE than unsolved ones (0.338 vs. 0.055), confirming that ICP is predictive of problem-solving success. With a 7B-parameter LLM whose weights are entirely frozen, CIKA achieves 69.7\% on the contamination-free Omni-MATH-Rule benchmark and 64.0\% overall, compared to 60.5\% for o1-mini, and 97.2\% on GSM8K, 46--50\% on AIME 2024--2026, and 46.2\% on MathArena. The Causal Knowledge Activation component contributes 33.8\% of correct answers on problems where the base model alone fails, demonstrating that the LLM already possessed but had not activated the requisite knowledge.
- Abstract(参考訳): MCTSベースのテストタイムサーチや因果グラフ誘導知識注入を通しても,どの概念が正しい回答に因果的に寄与するかは特定できない。
本稿では,CIKA(Causal Intervention for Knowledge Activation)を提案する。CIKA(Causal Intervention for Knowledge Activation)は,LSM自体を介入シミュレータとして使用するフレームワークである。
我々は、この量をICP(Interventional Capability Probe)として定式化し、LLMが与えられた概念を使えるかどうかを診断する。
介入は問題困難から独立して概念状態を設定するため、ICPは観察方法ができないという誤解を分離する。
67のスクリーニング問題では、トップランクの概念(+0.219)のICPは負の制御(+0.039; paired $t$-test, $p < 10^{-6}$, Cohen's $d = 0.86$)よりもかなり大きく、プローブが無関係な概念と因果関係な概念を識別することを確認した。
601 Omni-MATH問題の解析により、未解決問題よりも6.1$\times$ ATEが高い(0.338 vs. 0.055)ことが示され、ICPが問題解決の成功を予測することが確認された。
重量が完全に凍結された7BパラメータのLLMでは、CIKAは汚染のないOmni-MATH-Ruleベンチマークで69.7\%、O1-miniでは64.0\%、GSM8Kでは97.2\%、AIME 2024-2026では46-50\%、MathArenaでは46.2\%である。
因果的知識活性化(Causal Knowledge Activation)コンポーネントは、ベースモデルのみが失敗する問題に対する正しい回答の33.8 %を貢献し、LCMが既に持っているが、必要な知識を活性化していなかったことを証明している。
関連論文リスト
- ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning [5.523132953818281]
本稿では,LLM推論のためのシステムであるReFlectについて述べる。
6つの推論領域にまたがる制御された実験により、100個の監査された反射ブロックのうち90個の問題にフラグを付けない、プロンプトレベルの自己批判が公式テンプレートを生成することが示された。
我々のReFlectハーネスは, GPT-4o-miniで41%, Claude Sonnet 4.5で56%のタスク成功率を実現している。
論文 参考訳(メタデータ) (2026-05-07T06:29:34Z) - The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring [0.0]
本稿では,Nelson and Narens(1990)メタ認知フレームワークを基盤としたLLMにおけるモニタリング制御結合のドメイン間挙動測定を紹介する。
電池依存キャリブレーションは、単調低下(Q)、単調上昇(GPT-5.4)、平(Gemma)を含む。
発見は、独立なType-2 SDTアプローチと構造的に収束し、予備的なクロスメタルキャリブレーションを提供する。
論文 参考訳(メタデータ) (2026-04-17T05:15:15Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Heimdall: test-time scaling on the generative verification [2.662648783972914]
我々は,解の正しさを正確に判定できる長い CoT 検証 LLM である Heimdall を提案する。
純粋強化学習では、競争力のある数学の問題を62.5%から94.5%に向上する。
また,Heimdallの機能を拡張し,問題解決のスケールアップを図るため,Pessimistic Verificationを提案する。
論文 参考訳(メタデータ) (2025-04-14T15:46:33Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。