Fugu-MT 論文翻訳(概要): MC-NEST -- Enhancing Mathematical Reasoning in Large Language Models with a Monte Carlo Nash Equilibrium Self-Refine Tree

論文の概要: MC-NEST -- Enhancing Mathematical Reasoning in Large Language Models with a Monte Carlo Nash Equilibrium Self-Refine Tree

arxiv url: http://arxiv.org/abs/2411.15645v1
Date: Sat, 23 Nov 2024 20:31:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.504748
Title: MC-NEST -- Enhancing Mathematical Reasoning in Large Language Models with a Monte Carlo Nash Equilibrium Self-Refine Tree
Title（参考訳）: MC-NEST --モンテカルロ・ナッシュ平衡木を用いた大規模言語モデルにおける数学的推論の強化
Authors: Gollam Rabby, Farhana Keya, Parvez Zamil, Sören Auer,
Abstract要約: 我々はモンテカルロ・ナッシュ・エクイリビリウム・セルフリファインツリー(MC-NEST)アルゴリズムを導入し,モンテカルロ・ツリー・セルフリファインツリー(MCTSr)アプローチの強化を行った。 Nash Equilibrium戦略とLLMに基づく自己定義と自己評価プロセスを統合することで、MC-NESTは複雑な数学的推論タスクの意思決定を改善することを目指している。 LLMの複雑な数学的推論性能を著しく向上させる可能性を示し,オリンピアドレベルのベンチマークに対するMC-NESTの有効性を評価した。
参考スコア（独自算出の注目度）: 0.14999444543328289
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mathematical reasoning has proven to be a critical yet challenging task for large language models (LLMs), as they often struggle with complex multi-step problems. To address these limitations, we introduce the Monte Carlo Nash Equilibrium Self-Refine Tree (MC-NEST) algorithm, an enhancement of the Monte Carlo Tree Self-Refine (MCTSr) approach. By integrating Nash Equilibrium strategies with LLM-based self-refinement and self-evaluation processes, MC-NEST aims to improve decision-making for complex mathematical reasoning tasks. This method ensures balanced exploration and exploitation of potential solutions, leveraging Upper Confidence Bound (UCT) scores and various selection policies. Through iterative critique and refinement, MC-NEST enhances the reasoning capabilities of LLMs, particularly for problems requiring strategic decision-making. Comparative analysis reveals that GPT-4o, equipped with MC-NEST using an Importance Sampling Policy, achieved superior accuracy in domains such as Number Theory and Geometry. These results suggest that both LLMs GPT-4o and Phi-3-mini can benefit from MC-NEST, with iterative self-refinement proving especially effective in expanding the reasoning capacity and problem-solving performance of LLMs. We evaluate the effectiveness of MC-NEST on challenging Olympiad-level benchmarks, demonstrating its potential to significantly boost complex mathematical reasoning performance in LLMs.
Abstract（参考訳）: 数学的推論は大規模言語モデル(LLM)にとって重要な課題であり、複雑な多段階問題に悩まされることがしばしばある。これらの制約に対処するため,モンテカルロ・ナッシュ平衡自己再定義木 (MC-NEST) アルゴリズムを導入し,モンテカルロ・ナッシュ自己再定義木 (MCTSr) 法を改良した。 Nash Equilibrium戦略とLLMに基づく自己定義と自己評価プロセスを統合することで、MC-NESTは複雑な数学的推論タスクの意思決定を改善することを目指している。この方法は、アッパー信頼境界(UCT)スコアと様々な選択ポリシーを利用して、潜在的なソリューションのバランスのとれた探索と利用を保証する。 MC-NESTは反復的批判と改良を通じて、特に戦略的意思決定を必要とする問題に対して、LSMの推論能力を高める。比較分析の結果,GMT-4oはMC-NESTとImportance Smpling Policyを用いており,数値理論や幾何学などの領域では精度が高いことがわかった。これらの結果から, LLMs GPT-4oとPhi-3-miniはMC-NESTの恩恵を受けることが示唆された。 LLMの複雑な数学的推論性能を著しく向上させる可能性を示し,オリンピアドレベルのベンチマークに対するMC-NESTの有効性を評価した。

関連論文リスト

Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。 NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文参考訳（メタデータ） (2025-04-15T21:37:13Z)
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文参考訳（メタデータ） (2025-02-17T16:56:23Z)
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-02-13T18:59:46Z)
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [82.9413277326097]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文参考訳（メタデータ） (2025-01-19T16:53:26Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Interpretable Contrastive Monte Carlo Tree Search Reasoning [25.11379135302235]
大規模言語モデル(LLM)のための新しいモンテカルロ木探索法(MCTS)を提案する。 SC-MCTSは推論精度と速度の両方を著しく改善することを示した。我々は,Llama-3.1-70BとSC-MCTS*を用いたBlocksworldのマルチステップ推論データセットにおいて,平均17.4%でo1-miniを上回りました。
論文参考訳（メタデータ） (2024-10-02T16:15:31Z)
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.45472563225202]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文参考訳（メタデータ） (2024-06-11T16:01:07Z)
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs [8.89259409245068]
大規模言語モデル(LLM)は、数学的推論において印象的な能力を示す。我々はMathematical Topics Tree (MaTT)ベンチマークを提示する。最上級モデルであるGPT-4は,複数選択シナリオにおいて,わずか54%の精度を達成した。
論文参考訳（メタデータ） (2024-06-07T18:21:26Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Mamo: a Mathematical Modeling Benchmark with Solvers [14.04286044600141]
従来の結果指向評価を超越した新しいベンチマークであるMamoを紹介します。最終的な解決策の正しさよりも、LCMが実行しているプロセスに焦点を合わせることで、Mamoは新たな評価パラダイムを開拓した。
論文参考訳（メタデータ） (2024-05-21T18:29:54Z)
AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-06T15:20:30Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-06T01:13:53Z)
NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。 NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。データポイントを毎月更新する動的更新メカニズムで設計されている。
論文参考訳（メタデータ） (2023-12-22T18:07:44Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。