Fugu-MT 論文翻訳(概要): MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems

論文の概要: MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems

arxiv url: http://arxiv.org/abs/2404.04735v2
Date: Mon, 22 Jul 2024 22:37:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 22:33:53.620602
Title: MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems
Title（参考訳）: MACM:複雑数理問題の解法における条件マイニングのためのマルチエージェントシステムの利用
Authors: Bin Lei, Yi Zhang, Shan Zuo, Ali Payani, Caiwen Ding,
Abstract要約: 本稿では,条件マイニングのためのtextitMulti-Agent システム (textbfMACM) を提案する。複雑な数学的問題を解き、様々な数学的文脈にまたがる強力な一般化能力を示す。 MACMの助けを借りて、GPT-4 Turboの精度は、MATHデータセットの最も難しい5つの数学的な問題を、$mathbf54.68%テキストからmathbf76.73%$へと引き上げた。
参考スコア（独自算出の注目度）: 10.517708404982624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models, such as GPT-4, have demonstrated remarkable capabilities in processing standard queries. Despite these advancements, their performance substantially declines in \textbf{advanced mathematical problems requiring complex, multi-step logical reasoning}. To enhance their inferential capabilities, current research has delved into \textit{prompting engineering}, exemplified by methodologies such as the Tree of Thought and Graph of Thought. Nonetheless, these existing approaches encounter two significant limitations. Firstly, their effectiveness in tackling complex mathematical problems is somewhat constrained. Secondly, the necessity to design distinct prompts for individual problems hampers their generalizability. In response to these limitations, this paper introduces the \textit{Multi-Agent System for conditional Mining} (\textbf{MACM}) prompting method. It not only resolves intricate mathematical problems but also demonstrates strong generalization capabilities across various mathematical contexts. With the assistance of MACM, the accuracy of GPT-4 Turbo on the most challenging level five mathematical problems in the MATH dataset increase from $\mathbf{54.68\%} \text{ to } \mathbf{76.73\%}$. The code is available in \url{https://github.com/bin123apple/MACM}.
Abstract（参考訳）: GPT-4のような大規模言語モデルの最近の進歩は、標準クエリの処理において顕著な能力を示している。これらの進歩にもかかわらず、それらの性能は複雑で多段階の論理的推論を必要とする数学的な問題において著しく低下する。彼らの推論能力を高めるために、現在の研究は、思考のツリーや思考のグラフといった方法論によって実証された「textit{prompting engineering}」へと発展してきた。それでも、既存のアプローチには2つの大きな制限がある。第一に、複雑な数学的問題に対処するそれらの効果は、幾らか制約されている。第二に、個々の問題に対して異なるプロンプトを設計する必要性は、その一般化可能性を損なう。これらの制約に対応するために、条件マイニングのための \textit{Multi-Agent System (\textbf{MACM}) プロンプト法を提案する。複雑な数学的問題を解くだけでなく、様々な数学的文脈にまたがる強力な一般化能力を示す。 MACMの助けを借りて、GPT-4 TurboのMATHデータセットにおける最も難しい5つの数学的問題に対する精度は、$\mathbf{54.68\%} \text{to } \mathbf{76.73\%}$から上昇する。コードは \url{https://github.com/bin123apple/MACM} で入手できる。

関連論文リスト

Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-04T06:32:30Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Infant Agent: A Tool-Integrated, Logic-Driven Agent with Cost-Effective API Usage [19.54437582630868]
textscInfant Agentはタスク認識機能、演算子、階層型管理システム、メモリ検索機構を統合する。 textscInfant Agentを使用すると、GPT-4oのSWE-bench-liteデータセットの精度は$mathbf0.33%$から$mathbf30%$に上昇し、AIME-2024数学コンペティションでは、GPT-4oの精度は$mathbf13.3%$から$mathbf37%$に上昇する。
論文参考訳（メタデータ） (2024-11-02T02:48:37Z)
MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。本研究では、任意に複雑な算術証明問題に対する LLM の評価フレームワーク、MathGAP を提案する。
論文参考訳（メタデータ） (2024-10-17T12:48:14Z)
HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。 HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文参考訳（メタデータ） (2024-10-13T20:09:41Z)
MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文参考訳（メタデータ） (2024-07-01T01:56:28Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent [15.81048994298046]
大規模言語モデル (LLM) は複雑な数学的問題を解く上で困難に直面している。本稿では, エージェントベースのゼロショットフレームワークを用いて, LLMの数学的解法を公式に記述し, 拡張する。 miniF2FとMATHの実験では、PreRとMathAgentsの有効性が実証されている。
論文参考訳（メタデータ） (2023-12-14T13:33:50Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文参考訳（メタデータ） (2022-12-06T04:37:51Z)
JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文参考訳（メタデータ） (2022-06-13T17:03:52Z)
Tackling Math Word Problems with Fine-to-Coarse Abstracting and Reasoning [22.127301797950572]
本稿では,局所的なきめ細かい情報と,その大域的な論理構造の両方を捉えるために,微粒な方法で数学語問題をモデル化することを提案する。我々のモデルは局所的な変動に自然に敏感であり、目に見えない問題タイプにより良い一般化が可能である。
論文参考訳（メタデータ） (2022-05-17T12:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。