論文の概要: MetaMath: Integrating Natural Language and Code for Enhanced Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.19381v1
- Date: Fri, 1 Nov 2024 14:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:38:55.251783
- Title: MetaMath: Integrating Natural Language and Code for Enhanced Mathematical Reasoning in Large Language Models
- Title(参考訳): MetaMath:大規模言語モデルにおける数学的推論強化のための自然言語とコードの統合
- Authors: Xuyuan Xiong, Simeng Han, Ziyue Zhou, Arman Cohan,
- Abstract要約: 自然言語とコードを用いた数学的推論問題の解法に関する基礎的疑問を考察する。
その結果,LLMはコードよりも自然言語の推論が優れていることがわかった。
自然言語とコードは相補的な推論の形式として機能するが、特定のシナリオでは互いに負の形で影響を及ぼすことがある。
- 参考スコア(独自算出の注目度): 21.082464220284127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are commonly used to generate solutions for mathematical reasoning problems in the following formats: natural language, code, or a combination of both. In this paper, we explore fundamental questions related to solving mathematical reasoning problems using natural language and code with state-of-the-art LLMs, including GPT-4o-mini and LLama-3.1-8b-Turbo. Our findings show that LLMs are better at reasoning in natural language compared to code. Additionally, although natural language and code serve as complementary forms of reasoning, they can affect each other in a negative way in certain scenarios. These insights motivate our development of a new prompting method, MetaMath, which leverages an LLM to dynamically select the most appropriate reasoning form, resulting in improved performance over comparable baselines with GPT-4o-mini.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語、コード、あるいは両者の組み合わせという、以下の形式で数学的推論問題の解を生成するために一般的に用いられる。
本稿では,GPT-4o-mini や LLama-3.1-8b-Turbo など,最先端の LLM を用いた自然言語とコードを用いた数学的推論問題の解法に関する基礎的考察を行う。
その結果,LLMはコードよりも自然言語の推論が優れていることがわかった。
さらに、自然言語とコードは相補的な推論の形式として機能するが、特定のシナリオでは負の形で互いに影響しあうことができる。
これらの知見は, LLMを利用して最適推論形式を動的に選択し, GPT-4o-miniと同等のベースライン上での性能を向上させるメタマスという新たなプロンプト手法の開発を動機付けている。
関連論文リスト
- LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Leveraging Large Language Models to Generate Answer Set Programs [5.532477732693001]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示した。
本稿では,大規模言語モデルの強みと解集合プログラミングを組み合わせたニューロシンボリック手法を提案する。
論文 参考訳(メタデータ) (2023-07-15T03:40:55Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。