論文の概要: DAG-Math: Graph-Guided Mathematical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2510.19842v1
- Date: Sun, 19 Oct 2025 21:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.323897
- Title: DAG-Math: Graph-Guided Mathematical Reasoning in LLMs
- Title(参考訳): DAG-Math:LLMにおけるグラフ誘導数理推論
- Authors: Yuanhe Zhang, Ilja Kuzborskij, Jason D. Lee, Chenlei Leng, Fanghui Liu,
- Abstract要約: 大型言語モデル (LLM) は, CoT (Chain-of-Thought) による数学的問題に対して高い性能を示す
我々は、有向非巡回グラフ(DAG)上の一定の規則に基づくプロセスとしてCoTをモデル化することを提案する。
ここでは,モデルのCoT軌道がDAG構造にどの程度よく依存するかを定量化する計量である論理的近接性を導入する。
- 参考スコア(独自算出の注目度): 54.231935013127206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate strong performance on mathematical problems when prompted with Chain-of-Thought (CoT), yet it remains unclear whether this success stems from search, rote procedures, or rule-consistent reasoning. To address this, we propose modeling CoT as a certain rule-based stochastic process over directed acyclic graphs (DAGs), where nodes represent intermediate derivation states and edges encode rule applications. Within this framework, we introduce logical closeness, a metric that quantifies how well a model's CoT trajectory (i.e., the LLM's final output) adheres to the DAG structure, providing evaluation beyond classical PASS@k metrics. Building on this, we introduce the DAG-MATH CoT format and construct a benchmark that guides LLMs to generate CoT trajectories in this format, thereby enabling the evaluation of their reasoning ability under our framework. Across standard mathematical reasoning datasets, our analysis uncovers statistically significant differences in reasoning fidelity among representative LLM families-even when PASS@k is comparable-highlighting gaps between final-answer accuracy and rule-consistent derivation. Our framework provides a balance between free-form CoT and formal proofs systems, offering actionable diagnostics for LLMs reasoning evaluation. Our benchmark and code are available at: https://github.com/YuanheZ/DAG-MATH-Formatted-CoT.
- Abstract(参考訳): 大型言語モデル (LLM) は、Chain-of-Thought (CoT) によって引き起こされた数学的な問題に対して強い性能を示すが、この成功が探索、ルートプロシージャ、ルール一貫性推論に由来するかどうかは不明である。
そこで我々は,ノードが中間導出状態とエッジを符号化して規則を符号化する有向非巡回グラフ(DAG)上の規則に基づく確率過程として,CoTをモデル化することを提案する。
本フレームワークでは,従来のPASS@k測定値を超えて,モデルのCoT軌道(すなわちLLMの最終出力)がDAG構造にどの程度よく適合するかを定量化する計量である論理的クローズネスを導入する。
そこで我々は,DAG-MATH CoT フォーマットを導入し,このフォーマットで LLM を誘導して CoT トラジェクトリを生成するベンチマークを構築した。
標準的な数学的推論データセット全体では,PASS@kが最終回答精度と規則整合導出の差に匹敵するものであっても,代表LLMファミリー間の推論忠実度に統計的に有意な差が認められた。
我々のフレームワークは、自由形式CoTと形式証明システムのバランスを提供し、LCMの推論評価のための実用的な診断を提供する。
ベンチマークとコードは、https://github.com/YuanheZ/DAG-MATH-Formatted-CoT.comで公開されています。
関連論文リスト
- KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning? [4.473915603131591]
思考の連鎖は、多くの推論タスクにおいて、大きな言語モデルの性能を向上させることが示されている。
因果CoTグラフ(Causal CoT Graphs, CCGs)は, 因果トレースから自動的に抽出される非巡回グラフである。
論文 参考訳(メタデータ) (2025-07-15T15:28:37Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける「情報ゲイン」を定量化し、障害モードの識別を可能にする。
我々は,おもちゃの算術, GSM8K, PRM800kデータセットに関する広範な実験を通じて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - On the Diagram of Thought [20.805936414171892]
大規模言語モデル(LLM)は多くのタスクで優れているが、構造化された多段階の推論を必要とする複雑な問題に悩まされることが多い。
思考のダイアグラム(Diagram of Thought, DoT)は、1つのLCMがその推論のメンタルマップを構築し、ナビゲートすることを可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Linear Temporal Logic Modulo Theories over Finite Traces (Extended
Version) [72.38188258853155]
有限トレース(LTLf)上の線形時間論理について検討する。
命題の文字は任意の理論で解釈された一階述語式に置き換えられる。
Satisfiability Modulo Theories (LTLfMT) と呼ばれる結果の論理は半決定可能である。
論文 参考訳(メタデータ) (2022-04-28T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。