論文の概要: MDToC: Metacognitive Dynamic Tree of Concepts for Boosting Mathematical Problem-Solving of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.18841v1
- Date: Sun, 21 Dec 2025 18:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.525464
- Title: MDToC: Metacognitive Dynamic Tree of Concepts for Boosting Mathematical Problem-Solving of Large Language Models
- Title(参考訳): MDToC:大規模言語モデルの数学的問題解決を促進する概念のメタ認知動的木
- Authors: Tung Duong Ta, Tim Oates,
- Abstract要約: MDToC(Metacognitive Dynamic Tree of Concepts)は,概念木を構築し,各概念に対する精度検証計算を開発し,競合するソリューションを評価するために多数決を行う3段階の手法である。
CHAMP、MATH、Game-of-24ベンチマークによる評価は、GPT-4-TurboがCHAMPで58.1%、MATHで86.6%、Game-of-24で85%、MDToCの有効性を示している。
- 参考スコア(独自算出の注目度): 3.7958475517455947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in mathematical reasoning capabilities, Large Language Models (LLMs) still struggle with calculation verification when using established prompting techniques. We present MDToC (Metacognitive Dynamic Tree of Concepts), a three-phase approach that constructs a concept tree, develops accuracy-verified calculations for each concept, and employs majority voting to evaluate competing solutions. Evaluations across CHAMP, MATH, and Game-of-24 benchmarks demonstrate our MDToC's effectiveness, with GPT-4-Turbo achieving 58.1\% on CHAMP, 86.6\% on MATH, and 85\% on Game-of-24 - outperforming GoT by 5\%, 5.4\%, and 4\% on all these tasks, respectively, without hand-engineered hints. MDToC consistently surpasses existing prompting methods across all backbone models, yielding improvements of up to 7.6\% over ToT and 6.2\% over GoT, establishing metacognitive calculation verification as a promising direction for enhanced mathematical reasoning.
- Abstract(参考訳): 数学的推論能力の進歩にもかかわらず、Large Language Models (LLMs) は確立されたプロンプト技術を用いることで計算の検証に苦慮している。
MDToC(Metacognitive Dynamic Tree of Concepts)は,概念木を構築し,各概念に対する精度検証計算を開発し,競合するソリューションを評価するために多数決を行う3段階の手法である。
CHAMP、MATH、Game-of-24ベンチマークによる評価は、GPT-4-TurboがCHAMPで58.1\%、MATHで86.6\%、Game-of-24で85\%、GoTが5\%、5.4\%、そして4\%をそれぞれ手書きのヒントなしで、MDToCの有効性を示している。
MDToCは、すべてのバックボーンモデルにまたがる既存のプロンプト手法を一貫して上回り、ToTを7.6\%、GoTを6.2\%まで改善し、メタ認知的計算の検証を、数学的推論を強化するための有望な方向として確立した。
関連論文リスト
- Multi-chain Graph Refinement and Selection for Reliable Reasoning in Large Language Models [7.230514235208748]
我々は、MGRS(Multi-chain Graph Refinement & Selection)と呼ばれる新しい推論フレームワークを提案する。
MGRSは推論手法の推論能力と計算効率の両方を著しく向上させる。
24ポイントのゲームでは、MGRSは初めて100%の精度を達成し、主要なフォレスト・オブ・ソートズ・フレームワークと比較して13.6倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-11-28T12:35:16Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [98.29190911211053]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。