論文の概要: MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2402.17231v2
- Date: Tue, 19 Mar 2024 06:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:01:00.209609
- Title: MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning
- Title(参考訳): MATHSENSEI: 数学的推論のためのツール拡張大型言語モデル
- Authors: Debrup Das, Debopriyo Banerjee, Somak Aditya, Ashish Kulkarni,
- Abstract要約: 数学的推論のためのツール強化された大規模言語モデルMATHSENSEIを提案する。
数学的推論データセットの評価を通じて,これらのツールの補足的メリットについて検討する。
- 参考スコア(独自算出の注目度): 2.9104279358536647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented Large Language Models (TALM) are known to enhance the skillset of large language models (LLM), thereby, leading to their improved reasoning abilities across many tasks. While, TALMs have been successfully employed in different question-answering benchmarks, their efficacy on complex mathematical reasoning benchmarks, and the potential complimentary benefits offered by tools for knowledge retrieval and mathematical equation solving, are open research questions. In this work, we present MATHSENSEI, a tool-augmented large language model for mathematical reasoning. Augmented with tools for knowledge retrieval (Bing Web Search), program execution (Python), and symbolic equation solving (Wolfram-Alpha), we study the complimentary benefits of these tools through evaluations on mathematical reasoning datasets. We perform exhaustive ablations on MATH,a popular dataset for evaluating mathematical reasoning on diverse mathematical disciplines. We also conduct experiments involving well-known tool planners to study the impact of tool sequencing on the model performance. MATHSENSEI achieves 13.5% better accuracy over gpt-3.5-turbo with chain-of-thought on the MATH dataset. We further observe that TALMs are not as effective for simpler math word problems (in GSM-8k), and the benefit increases as the complexity and required knowledge increases (progressively over AQuA, MMLU-Math, and higher level complex questions in MATH). The code and data are available at https://github.com/Debrup-61/MathSensei.
- Abstract(参考訳): ツール強化された大規模言語モデル(TALM)は、大きな言語モデル(LLM)のスキルセットを高めることで知られており、多くのタスクにおける推論能力の向上につながっている。
TALMは、様々な質問答えベンチマーク、複雑な数学的推論ベンチマークにおける有効性、そして知識検索や数学的方程式の解法のためのツールによって提供される潜在的補完的な利点などにおいて、うまく採用されているが、オープンな研究課題である。
本研究では,数学的推論のためのツール強化された大規模言語モデルMATHSENSEIを提案する。
知識検索(Bing Web Search)、プログラム実行(Python)、記号方程式の解法(Wolfram-Alpha)などのツールを駆使して,数学的推論データセットの評価を通じて,これらのツールの補完的メリットについて検討する。
我々は、様々な数学的分野の数学的推論を評価するための一般的なデータセットであるMATHについて、徹底的な改善を行う。
また、有名なツールプランナによる実験を行い、ツールシークエンシングがモデル性能に与える影響について検討する。
MATHSENSEIは、MATHデータセットに連鎖したgpt-3.5-turboよりも13.5%精度が向上している。
さらに,より単純な数学語問題 (GSM-8k) に対してTALMは有効ではなく,複雑性や必要な知識が増大するにつれてメリットが増大する(AQuA,MMLU-Math,MATHの高次複雑問題など)。
コードとデータはhttps://github.com/Debrup-61/MathSensei.comで公開されている。
関連論文リスト
- Multi-tool Integration Application for Math Reasoning Using Large Language Model [1.4582633500696451]
本稿では,数学的推論のための新しいマルチツールアプリケーションフレームワークを提案する。
大規模言語モデル(LLM)と複数の外部ツールの協調効果を利用して、より包括的で正確な数学的推論を実現することを目的としている。
論文 参考訳(メタデータ) (2024-08-22T06:27:10Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - Math Agents: Computational Infrastructure, Mathematical Embedding, and
Genomics [0.0]
人間-AIチャット以外にも、大規模言語モデル(LLM)はプログラミング、アルゴリズム発見、定理証明に現れている。
本研究は「ムーアの数学法則」の新たなエントリとして数学エージェントと数学的埋め込みを紹介する。
プロジェクトは、情報システム生物学の老朽化問題に対処するために、数学エージェントと数学的埋め込みを使用することを目的としている。
論文 参考訳(メタデータ) (2023-07-04T20:16:32Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。