論文の概要: MathChat: Converse to Tackle Challenging Math Problems with LLM Agents
- arxiv url: http://arxiv.org/abs/2306.01337v3
- Date: Fri, 28 Jun 2024 10:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 22:23:58.509402
- Title: MathChat: Converse to Tackle Challenging Math Problems with LLM Agents
- Title(参考訳): MathChat: LLMエージェントを用いたタックルChallenging数学問題への対処
- Authors: Yiran Wu, Feiran Jia, Shaokun Zhang, Hangyu Li, Erkang Zhu, Yue Wang, Yin Tat Lee, Richard Peng, Qingyun Wu, Chi Wang,
- Abstract要約: MathChatは、数学問題用に設計された会話型問題解決フレームワークである。
MathChatは従来のツール利用促進手法を6%改善できることを示す。
- 参考スコア(独自算出の注目度): 40.20835258087266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Employing Large Language Models (LLMs) to address mathematical problems is an intriguing research endeavor, considering the abundance of math problems expressed in natural language across numerous science and engineering fields. LLMs, with their generalized ability, are used as a foundation model to build AI agents for different tasks. In this paper, we study the effectiveness of utilizing LLM agents to solve math problems through conversations. We propose MathChat, a conversational problem-solving framework designed for math problems. MathChat consists of an LLM agent and a user proxy agent which is responsible for tool execution and additional guidance. This synergy facilitates a collaborative problem-solving process, where the agents engage in a dialogue to solve the problems. We perform evaluation on difficult high school competition problems from the MATH dataset. Utilizing Python, we show that MathChat can further improve previous tool-using prompting methods by 6%.
- Abstract(参考訳): 数学問題に対処するために大規模言語モデル(LLM)を採用することは、多くの科学・工学分野にわたって自然言語で表される数学問題の豊富さを考えると、興味深い研究努力である。
汎用能力を備えたLLMは、さまざまなタスクのためのAIエージェントを構築するための基礎モデルとして使用される。
本稿では,LLMエージェントを用いた会話による数学問題の解法の有効性について検討する。
本研究では,数学問題のための対話型問題解決フレームワークであるMathChatを提案する。
MathChatは、ツールの実行と追加のガイダンスを担当するLLMエージェントとユーザプロキシエージェントで構成される。
このシナジーは協調的な問題解決プロセスを促進し、エージェントは問題を解くために対話を行う。
我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
Pythonを利用すると、MathChatは従来のツール使用プロンプトメソッドを6%改善できることを示す。
関連論文リスト
- Give me a hint: Can LLMs take a hint to solve math problems? [0.5742190785269342]
本稿では,先進的な数学的問題に対する言語モデルの性能向上のための"ヒント"を提案する。
また、敵のヒントに対する堅牢性をテストし、それらに対する感受性を示す。
論文 参考訳(メタデータ) (2024-10-08T11:09:31Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。
本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文 参考訳(メタデータ) (2024-06-26T13:02:35Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Solving Math Word Problems by Combining Language Models With Symbolic
Solvers [28.010617102877923]
大規模言語モデル(LLM)は複雑な推論と計算を行うために外部ツールと組み合わせることができる。
本稿では,変数と方程式の集合として単語問題を段階的に形式化するLLMと,外部記号解法を併用する手法を提案する。
提案手法は,GSM8Kベンチマークにおける元のPALに匹敵する精度を達成し,ALGEBRAでPALを絶対20%上回る性能を示した。
論文 参考訳(メタデータ) (2023-04-16T04:16:06Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。