論文の概要: MDToC: Metacognitive Dynamic Tree of Concepts for Boosting Mathematical Problem-Solving of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.18841v2
- Date: Mon, 29 Dec 2025 09:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 15:03:30.755679
- Title: MDToC: Metacognitive Dynamic Tree of Concepts for Boosting Mathematical Problem-Solving of Large Language Models
- Title(参考訳): MDToC:大規模言語モデルの数学的問題解決を促進する概念のメタ認知動的木
- Authors: Tung Duong Ta, Tim Oates, Thien Van Luong, Huan Vu, Tien Cuong Nguyen,
- Abstract要約: MDToC(Metacognitive Dynamic Tree of Concepts)は,概念木を構築し,各概念に対する精度検証計算を開発し,競合するソリューションを評価するために多数決を行う3段階の手法である。
CHAMP、MATH、Game-of-24ベンチマークによる評価は、GPT-4-TurboがCHAMPで58.1%、MATHで86.6%、Game-of-24で85%、MDToCの有効性を示している。
- 参考スコア(独自算出の注目度): 8.062601759581053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in mathematical reasoning capabilities, Large Language Models (LLMs) still struggle with calculation verification when using established prompting techniques. We present MDToC (Metacognitive Dynamic Tree of Concepts), a three-phase approach that constructs a concept tree, develops accuracy-verified calculations for each concept, and employs majority voting to evaluate competing solutions. Evaluations across CHAMP, MATH, and Game-of-24 benchmarks demonstrate our MDToC's effectiveness, with GPT-4-Turbo achieving 58.1\% on CHAMP, 86.6\% on MATH, and 85\% on Game-of-24 - outperforming GoT by 5\%, 5.4\%, and 4\% on all these tasks, respectively, without hand-engineered hints. MDToC consistently surpasses existing prompting methods across all backbone models, yielding improvements of up to 7.6\% over ToT and 6.2\% over GoT, establishing metacognitive calculation verification as a promising direction for enhanced mathematical reasoning.
- Abstract(参考訳): 数学的推論能力の進歩にもかかわらず、Large Language Models (LLMs) は確立されたプロンプト技術を用いることで計算の検証に苦慮している。
MDToC(Metacognitive Dynamic Tree of Concepts)は,概念木を構築し,各概念に対する精度検証計算を開発し,競合するソリューションを評価するために多数決を行う3段階の手法である。
CHAMP、MATH、Game-of-24ベンチマークによる評価は、GPT-4-TurboがCHAMPで58.1\%、MATHで86.6\%、Game-of-24で85\%、GoTが5\%、5.4\%、そして4\%をそれぞれ手書きのヒントなしで、MDToCの有効性を示している。
MDToCは、すべてのバックボーンモデルにまたがる既存のプロンプト手法を一貫して上回り、ToTを7.6\%、GoTを6.2\%まで改善し、メタ認知的計算の検証を、数学的推論を強化するための有望な方向として確立した。
関連論文リスト
- †DAGGER: Distractor-Aware Graph Generation for Executable Reasoning in Math Problems [1.2310602580215997]
CoT(Chain-of-Thought)プロンプトは数学的な問題解決に広く採用されているが、その無関係な文脈下での挙動は未解明のままである。
DisTRACTMATH-BN は、MGSM と MSVAMP を意味的に一貫性があるが、計算的に無関係な情報で拡張するベンチマークである。
DAGGERは、散逸ノードの明示的なモデリングで実行可能な計算グラフ生成として数学的問題解決を再構築する。
論文 参考訳(メタデータ) (2026-01-11T10:51:03Z) - AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - Multi-chain Graph Refinement and Selection for Reliable Reasoning in Large Language Models [7.230514235208748]
我々は、MGRS(Multi-chain Graph Refinement & Selection)と呼ばれる新しい推論フレームワークを提案する。
MGRSは推論手法の推論能力と計算効率の両方を著しく向上させる。
24ポイントのゲームでは、MGRSは初めて100%の精度を達成し、主要なフォレスト・オブ・ソートズ・フレームワークと比較して13.6倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-11-28T12:35:16Z) - Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [98.29190911211053]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Cumulative Reasoning with Large Language Models [12.267474250936123]
Cumulative Reasoning (CR)は、大規模言語モデル(LLM)問題解決を強化する構造化フレームワークである。
CRはLLMを3つの異なる役割 - Proposer、Verifier(s)、Reporter - タスクを体系的に分解し、中間的推論ステップを生成し、検証し、ソリューションに構成する。
論文 参考訳(メタデータ) (2023-08-08T16:18:20Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。