論文の概要: Multi-tool Integration Application for Math Reasoning Using Large Language Model
- arxiv url: http://arxiv.org/abs/2408.12148v1
- Date: Thu, 22 Aug 2024 06:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 15:03:23.099971
- Title: Multi-tool Integration Application for Math Reasoning Using Large Language Model
- Title(参考訳): 大規模言語モデルを用いた数学推論のためのマルチツール統合アプリケーション
- Authors: Zhihua Duan, Jialin Wang,
- Abstract要約: 本稿では,数学的推論のための新しいマルチツールアプリケーションフレームワークを提案する。
大規模言語モデル(LLM)と複数の外部ツールの協調効果を利用して、より包括的で正確な数学的推論を実現することを目的としている。
- 参考スコア(独自算出の注目度): 1.4582633500696451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical reasoning is an important research direction in the field of artificial intelligence. This article proposes a novel multi tool application framework for mathematical reasoning, aiming to achieve more comprehensive and accurate mathematical reasoning by utilizing the collaborative effect of large language models (LLMs) and multiple external tools. Firstly, use a Math Tool to perform basic mathematical calculations during the inference process through interaction with LLM. Secondly, Code Tool can generate code fragments that comply with syntax rules and execute them, providing support for complex mathematical problems. Then, through the iterative reasoning of the CoT Tool, the logical coherence and accuracy of mathematical reasoning are enhanced. Ultimately, by using self consistency tools to select the final answer based on different parameters, the consistency and reliability of reasoning are improved. Through the synergistic effect of these tools, the framework has achieved significant performance improvement in mathematical reasoning tasks. We conducted experiments on the NumGLUE Task 4 test set, which includes 220 mathematical reasoning fill in the blank questions. The experimental results showed that, based on Math Tool, Code Tool, and CoT Tool, in Task 4 task,our method achieved an accuracy of 89.09,compared with the GPT3+FewShot baseline, Few Shot+ERNIE-4.0+self consistency improved by 49.09%, and compared with fine-tuning the Fine tuning baseline, Few Shot+ERNIE-4.0+self consistency improved by 52.29%
- Abstract(参考訳): 数学的推論は人工知能の分野で重要な研究方向である。
本稿では,大規模言語モデル(LLM)と複数の外部ツールの協調的効果を利用して,より包括的で正確な数学的推論を実現することを目的とした,数学的推論のための新しいマルチツールアプリケーションフレームワークを提案する。
まず、LLMとの相互作用を通じて推論過程の基本的な数学的計算を行うために、Math Toolを使用する。
第二に、Code Toolは構文規則に準拠してそれらを実行するコードフラグメントを生成し、複雑な数学的問題をサポートする。
そして、CoTツールの反復推論により、数学的推論の論理的コヒーレンスと精度を向上させる。
最終的に、異なるパラメータに基づいて最終回答を選択するために自己整合性ツールを使用することで、推論の一貫性と信頼性が改善される。
これらのツールの相乗効果を通じて、このフレームワークは数学的推論タスクにおいて大幅な性能向上を実現している。
NumGLUE Task 4 テストセットでは,空白質問の数学的推論を220個含む実験を行った。
実験結果から,タスク4におけるMath Tool, Code Tool, CoT Toolに基づいて,GPT3+FewShotベースラインと比較して89.09の精度を実現し,Few Shot+ERNIE-4.0+self一貫性を49.09%改善し,Few Shot+ERNIE-4.0+self一貫性を52.29%改善した。
関連論文リスト
- MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit [4.957099360745168]
大規模言語モデル (LLM) は数学的問題の解法を含む様々な推論タスクにおいて研究されている。
我々は,ピソン型計算機代数システム(CAS)をその数値精度に活用するだけでなく,オプションのLCMも組み込んだ総合的な数学的評価ツールキットを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:03:44Z) - MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。
ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文 参考訳(メタデータ) (2024-02-27T05:50:35Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - From Good to Great: Improving Math Reasoning with Tool-Augmented
Interleaf Prompting [45.77084082197953]
IMP-TIP: Tool-augmented Interleaf Promptingによる数学推論の改善。
IMP-TIP: Tool-augmented Interleaf PromptingによるMath Reasoningの改善について紹介する。
論文 参考訳(メタデータ) (2023-12-18T06:31:23Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。