Fugu-MT 論文翻訳(概要): Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent

論文の概要: Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent

arxiv url: http://arxiv.org/abs/2312.08926v2
Date: Sun, 17 Dec 2023 03:34:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 19:01:34.881588
Title: Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent
Title（参考訳）: 大規模言語モデルに基づくMathAgentによる複雑な数学的推論のモデル化
Authors: Haoran Liao, Qinyi Du, Shaohua Hu, Hao He, Yanyan Xu, Jidong Tian, Yaohui Jin
Abstract要約: 大規模言語モデル (LLM) は複雑な数学的問題を解く上で困難に直面している。本稿では, エージェントベースのゼロショットフレームワークを用いて, LLMの数学的解法を公式に記述し, 拡張する。 miniF2FとMATHの実験では、PreRとMathAgentsの有効性が実証されている。
参考スコア（独自算出の注目度）: 15.81048994298046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) face challenges in solving complex mathematical problems that require comprehensive capacities to parse the statements, associate domain knowledge, perform compound logical reasoning, and integrate the intermediate rationales. Tackling all these problems once could be arduous for LLMs, thus leading to confusion in generation. In this work, we explore the potential of enhancing LLMs with agents by meticulous decomposition and modeling of mathematical reasoning process. Specifically, we propose a formal description of the mathematical solving and extend LLMs with an agent-based zero-shot framework named $\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER). We further provide and implement two MathAgents that define the logical forms and inherent relations via a pool of actions in different grains and orientations: MathAgent-M adapts its actions to LLMs, while MathAgent-H aligns with humankind. Experiments on miniF2F and MATH have demonstrated the effectiveness of PRER and proposed MathAgents, achieving an increase of $12.3\%$($53.9\%\xrightarrow{}66.2\%$) on the MiniF2F, $9.2\%$ ($49.8\%\xrightarrow{}59.0\%$) on MATH, and $13.2\%$($23.2\%\xrightarrow{}35.4\%$) for level-5 problems of MATH against GPT-4. Further analytical results provide more insightful perspectives on exploiting the behaviors of LLMs as agents.
Abstract（参考訳）: 大規模言語モデル(LLM)は、文を解析し、ドメイン知識を関連づけ、複雑な論理的推論を行い、中間的論理的理性を統合するために包括的な能力を必要とする複雑な数学的問題の解決に直面する。これらの問題に一度に対処することはLLMにとって困難であり、世代によって混乱を招いた。本研究では, 数学的推論過程の精密な分解とモデリングにより, LLMをエージェントで拡張する可能性について検討する。具体的には、数学的解法を形式的に記述し、エージェントベースのゼロショットフレームワークである$\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER) で拡張する。 MathAgent-MはLSMに適応し、MathAgent-Hは人間と協調する。 miniF2F と MATH の実験では PreR と MathAgents の有効性を実証し、MiniF2F 上の $112.3\%$($53.9\%\xrightarrow{}66.2\%$)、MATH 上の 9.2\%$$$$49.8\%\xrightarrow{}59.0\%$)、GPT-4 に対する MATH のレベル5問題に対する $13.2\%$($23.2\%\xrightarrow{}35.4\%$) を達成している。さらなる分析結果は、LSMの挙動をエージェントとして活用する上で、より洞察に富む視点を提供する。

関連論文リスト

Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-05-23T08:23:36Z)
Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem [11.81434494801394]
我々は,Large Language Models (LLMs) を用いた実世界の数学的モデリングのタスクを定式化する。本稿では,オープンエンド問題解析,構造化モデル定式化,計算問題解決,レポート生成の4つの段階に,モデリングを分解する専門家主導のフレームワークMM-Agentを提案する。 MM-Agentはベースラインエージェントを著しく上回り、人間の専門家ソリューションよりも11.88%改善している。
論文参考訳（メタデータ） (2025-05-20T09:55:31Z)
MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection [53.325457460187046]
これらの課題に対処するために設計された新しいMixture-of-Math-AgentフレームワークであるMathAgentを紹介する。 MathAgentはエラー検出を3つのフェーズに分解し、それぞれが特別なエージェントによって処理される。実世界の教育データに基づいてMathAgentを評価し,誤差ステップ同定の精度を約5%向上した。
論文参考訳（メタデータ） (2025-03-23T16:25:08Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。 HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文参考訳（メタデータ） (2024-10-13T20:09:41Z)
AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。多様で挑戦的な数学の質問には、控えめな需要がある。本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文参考訳（メタデータ） (2024-07-30T17:55:36Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems [10.517708404982624]
本稿では,条件マイニングのためのtextitMulti-Agent システム (textbfMACM) を提案する。複雑な数学的問題を解き、様々な数学的文脈にまたがる強力な一般化能力を示す。 MACMの助けを借りて、GPT-4 Turboの精度は、MATHデータセットの最も難しい5つの数学的な問題を、$mathbf54.68%テキストからmathbf76.73%$へと引き上げた。
論文参考訳（メタデータ） (2024-04-06T21:39:01Z)
Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文参考訳（メタデータ） (2024-03-30T12:48:31Z)
Can Large Language Models Play Games? A Case Study of A Self-Play Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。 Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文参考訳（メタデータ） (2024-03-08T19:16:29Z)
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文参考訳（メタデータ） (2024-02-09T11:22:08Z)
Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文参考訳（メタデータ） (2023-06-02T17:12:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。