論文の概要: Modeling Complex Mathematical Reasoning via Large Language Model based
MathAgent
- arxiv url: http://arxiv.org/abs/2312.08926v1
- Date: Thu, 14 Dec 2023 13:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:00:36.482946
- Title: Modeling Complex Mathematical Reasoning via Large Language Model based
MathAgent
- Title(参考訳): 大規模言語モデルに基づくMathAgentによる複雑な数学的推論のモデル化
- Authors: Haoran Liao, Qinyi Du, Shaohua Hu, Hao He, Yanyan Xu, Jidong Tian,
Yaohui Jin
- Abstract要約: 大規模言語モデル (LLM) は複雑な数学的問題を解く上で困難に直面している。
本稿では, エージェントベースのゼロショットフレームワークを用いて, LLMの数学的解法を公式に記述し, 拡張する。
miniF2FとMATHの実験では、PreRとMathAgentsの有効性が実証されている。
- 参考スコア(独自算出の注目度): 15.81048994298046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) face challenges in solving complex mathematical
problems that require comprehensive capacities to parse the statements,
associate domain knowledge, perform compound logical reasoning, and integrate
the intermediate rationales. Tackling all these problems once could be arduous
for LLMs, thus leading to confusion in generation. In this work, we explore the
potential of enhancing LLMs with agents by meticulous decomposition and
modeling of mathematical reasoning process. Specifically, we propose a formal
description of the mathematical solving and extend LLMs with an agent-based
zero-shot framework named
$\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER). We
further provide and implement two MathAgents that define the logical forms and
inherent relations via a pool of actions in different grains and orientations:
MathAgent-M adapts its actions to LLMs, while MathAgent-H aligns with
humankind. Experiments on miniF2F and MATH have demonstrated the effectiveness
of PRER and proposed MathAgents, achieving an increase of
$12.3\%$($53.9\%\xrightarrow{}66.2\%$) on the MiniF2F, $9.2\%$
($49.8\%\xrightarrow{}59.0\%$) on MATH, and
$13.2\%$($23.2\%\xrightarrow{}35.4\%$) for level-5 problems of MATH against
GPT-4. Further analytical results provide more insightful perspectives on
exploiting the behaviors of LLMs as agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文を解析し、ドメイン知識を関連づけ、複雑な論理的推論を行い、中間的論理的理性を統合するために包括的な能力を必要とする複雑な数学的問題の解決に直面する。
これらの問題に一度に対処することはLLMにとって困難であり、世代によって混乱を招いた。
本研究では, 数学的推論過程の精密な分解とモデリングにより, LLMをエージェントで拡張する可能性について検討する。
具体的には、数学的解法を形式的に記述し、エージェントベースのゼロショットフレームワークである$\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER) で拡張する。
MathAgent-MはLSMに適応し、MathAgent-Hは人間と協調する。
miniF2F と MATH の実験では PreR と MathAgents の有効性を実証し、MiniF2F 上の $112.3\%$($53.9\%\xrightarrow{}66.2\%$)、MATH 上の 9.2\%$$$$49.8\%\xrightarrow{}59.0\%$)、GPT-4 に対する MATH のレベル5問題に対する $13.2\%$($23.2\%\xrightarrow{}35.4\%$) を達成している。
さらなる分析結果は、LSMの挙動をエージェントとして活用する上で、より洞察に富む視点を提供する。
関連論文リスト
- FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems [10.517708404982624]
本稿では,条件マイニングのためのtextitMulti-Agent システム (textbfMACM) を提案する。
複雑な数学的問題を解き、様々な数学的文脈にまたがる強力な一般化能力を示す。
MACMの助けを借りて、GPT-4 Turboの精度は、MATHデータセットの最も難しい5つの数学的な問題を、$mathbf54.68%テキストからmathbf76.73%$へと引き上げた。
論文 参考訳(メタデータ) (2024-04-06T21:39:01Z) - Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。
本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文 参考訳(メタデータ) (2024-03-30T12:48:31Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。