Fugu-MT 論文翻訳(概要): CMCTS: A Constrained Monte Carlo Tree Search Framework for Mathematical Reasoning in Large Language Model

論文の概要: CMCTS: A Constrained Monte Carlo Tree Search Framework for Mathematical Reasoning in Large Language Model

arxiv url: http://arxiv.org/abs/2502.11169v2
Date: Mon, 16 Jun 2025 11:37:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 15:15:29.899192
Title: CMCTS: A Constrained Monte Carlo Tree Search Framework for Mathematical Reasoning in Large Language Model
Title（参考訳）: CMCTS:大規模言語モデルにおける数学的推論のための制約付きモンテカルロ木探索フレームワーク
Authors: Qingwen Lin, Boyan Xu, Guimin Hu, Zijian Li, Zhifeng Hao, Keli Zhang, Ruichu Cai,
Abstract要約: 本稿では,大規模言語モデル(LLM)の数学的推論能力を高めるために,制約付きモンテカルロ木探索(CMCTS)フレームワークを提案する。制約された行動空間、プロセス・リワード・モデル(PRM)、部分順序規則を組み込むことで、CMCTSは状態空間の多様性と行動選択合理性の観点から、この制限を効果的に解決する。実験結果から, CMCTSは複数の数学的推論ベンチマークにおいて優れた性能を示した。
参考スコア（独自算出の注目度）: 20.81044211340922
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces the Constrained Monte Carlo Tree Search (CMCTS) framework to enhance the mathematical reasoning capabilities of Large Language Models (LLM). By incorporating a constrained action space, Process Reward Model (PRM), and partial order rules, CMCTS effectively addresses the limitations of existing MCTS methods in terms of state space diversity and action selection rationality. Specifically, during the expansion phase, CMCTS restricts action sampling to a predefined constrained action set to increase candidate state diversity. In the simulation phase, it introduces partial order rules and PRM to optimize action selection and prevent unreasonable state transitions. Experimental results show that CMCTS performs outstandingly across multiple mathematical reasoning benchmarks. Under a zero-shot setting, a 7B-parameter model achieves an average accuracy of 83.4\%, surpassing the 72B baseline model by 4.8\%. Ablation studies demonstrate that each component of the framework is crucial for performance improvement, and their combined use fully leverages their respective strengths. Overall, the CMCTS framework provides an effective approach to enhancing LLM mathematical reasoning capabilities, supported by theoretical analysis, and offers novel insights for future reasoning tasks.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) の数学的推論能力を高めるために,CMCTS (Constrained Monte Carlo Tree Search) フレームワークを提案する。制約された行動空間、プロセス・リワード・モデル(PRM)、部分順序規則を組み込むことで、MCTSは状態空間の多様性と行動選択合理性の観点から既存のMCTS手法の限界を効果的に解決する。具体的には、拡張フェーズの間、MCCTSは、候補状態の多様性を高めるために予め定義された制約されたアクションセットにアクションサンプリングを制限します。シミュレーションフェーズでは、部分順序規則とPRMを導入し、アクション選択を最適化し、不合理な状態遷移を防止する。実験結果から, CMCTSは複数の数学的推論ベンチマークにおいて優れた性能を示した。ゼロショット設定では、7Bパラメータモデルの平均精度は83.4\%であり、72Bベースラインモデルより4.8\%高い。アブレーション研究は、フレームワークの各コンポーネントがパフォーマンス改善に不可欠であることを示し、それらの組み合わせの使用はそれぞれの強みを完全に活用している。全体として、CMCTSフレームワークは、LLMの数学的推論能力を高める効果的なアプローチを提供し、理論解析によってサポートされ、将来の推論タスクに新しい洞察を提供する。

関連論文リスト

High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
ToC: Tree-of-Claims Search with Multi-Agent Language Models [6.374290225209528]
ToCは、クレーム編集をガイド付き検索問題として再定義する革新的なフレームワークである。 ToCはモンテカルロ木探索(MCTS)と協調的なマルチエージェントシステムを統合している。新規性、スコープ保持、セマンティックコヒーレンス批判を共同で最適化する。
論文参考訳（メタデータ） (2025-11-21T06:01:28Z)
From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision [49.59309446816251]
既存手法は, 定予算サンプリング戦略に基づいて, 推論ステップの質を推定する。本稿では,データ生成を静的から適応に変換するフレームワークであるAdaptive Monte Carlo Search (AMCS)を提案する。 AMCSは、より多くのサンプルを不確実な推論ステップに割り当てることによって、予測を適応的に洗練し、予測しやすくする。
論文参考訳（メタデータ） (2025-09-29T06:52:35Z)
Reinforced Language Models for Sequential Decision Making [6.971286730860635]
大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェントとしての可能性を示している。既存のポストトレーニング手法はシングルターンインタラクション用に設計されており、マルチステップエージェントタスクにおけるクレジット割り当てを処理できない。この研究は、標的となるポストトレーニングが、シーケンシャルな意思決定エージェントを作成するためのモデルスケールに依存する、実用的で効率的な代替手段であることを実証している。
論文参考訳（メタデータ） (2025-08-14T17:05:44Z)
Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。 Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。 Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文参考訳（メタデータ） (2025-05-29T11:40:34Z)
Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。 L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文参考訳（メタデータ） (2025-05-20T07:04:01Z)
MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [27.378904180238557]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文参考訳（メタデータ） (2025-03-26T17:46:08Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。本手法は,木構造化プロセスとしてデノナイジングを再認識し,部分的にデノナイジングした計画を反復的に評価し,刈り取り,精錬する。
論文参考訳（メタデータ） (2025-02-11T02:51:42Z)
Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文参考訳（メタデータ） (2025-02-04T22:08:20Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [82.9413277326097]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文参考訳（メタデータ） (2025-01-19T16:53:26Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文参考訳（メタデータ） (2024-06-04T14:02:53Z)
SPO: Sequential Monte Carlo Policy Optimisation [41.52684912140086]
SPO:Sequential Monte Carlo Policy optimizationを紹介する。我々は,SPOがロバストな政策改善と効率的なスケーリング特性を提供することを示した。モデルフリーおよびモデルベースラインと比較して,統計的に有意な性能向上を示す。
論文参考訳（メタデータ） (2024-02-12T10:32:47Z)
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning [31.110005898556892]
大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。我々はCoT-Influxを提案する。これはCoT学習の境界を押し上げる新しいアプローチである。 CoT-Influxは、CoTの実例と簡潔な例の入力を最大化するために粗いプルーナーを使用する。
論文参考訳（メタデータ） (2023-12-14T13:03:13Z)
Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。本稿では2段階のフレームワークであるSci-CoTを提案する。我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文参考訳（メタデータ） (2023-08-09T03:18:07Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。 CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文参考訳（メタデータ） (2022-10-04T07:34:06Z)
MCCE: Monte Carlo sampling of realistic counterfactual explanations [2.156170153103442]
MCCEは、新規なオン・マニフォールドで、動作可能で、有効な対実的説明法である。可変特徴の共役分布をモデル化することにより、オン・マニフォールド、動作可能、有効な反事実を生成する。我々は,MCCEを4つのよく知られたデータセットを用いて,最先端のmanifold法と比較した。
論文参考訳（メタデータ） (2021-11-18T16:40:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。