Fugu-MT 論文翻訳(概要): MetaMath: Integrating Natural Language and Code for Enhanced Mathematical Reasoning in Large Language Models

論文の概要: MetaMath: Integrating Natural Language and Code for Enhanced Mathematical Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2409.19381v1
Date: Fri, 1 Nov 2024 14:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 23:38:55.251783
Title: MetaMath: Integrating Natural Language and Code for Enhanced Mathematical Reasoning in Large Language Models
Title（参考訳）: MetaMath:大規模言語モデルにおける数学的推論強化のための自然言語とコードの統合
Authors: Xuyuan Xiong, Simeng Han, Ziyue Zhou, Arman Cohan,
Abstract要約: 自然言語とコードを用いた数学的推論問題の解法に関する基礎的疑問を考察する。その結果,LLMはコードよりも自然言語の推論が優れていることがわかった。自然言語とコードは相補的な推論の形式として機能するが、特定のシナリオでは互いに負の形で影響を及ぼすことがある。
参考スコア（独自算出の注目度）: 21.082464220284127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are commonly used to generate solutions for mathematical reasoning problems in the following formats: natural language, code, or a combination of both. In this paper, we explore fundamental questions related to solving mathematical reasoning problems using natural language and code with state-of-the-art LLMs, including GPT-4o-mini and LLama-3.1-8b-Turbo. Our findings show that LLMs are better at reasoning in natural language compared to code. Additionally, although natural language and code serve as complementary forms of reasoning, they can affect each other in a negative way in certain scenarios. These insights motivate our development of a new prompting method, MetaMath, which leverages an LLM to dynamically select the most appropriate reasoning form, resulting in improved performance over comparable baselines with GPT-4o-mini.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語、コード、あるいは両者の組み合わせという、以下の形式で数学的推論問題の解を生成するために一般的に用いられる。本稿では,GPT-4o-mini や LLama-3.1-8b-Turbo など,最先端の LLM を用いた自然言語とコードを用いた数学的推論問題の解法に関する基礎的考察を行う。その結果,LLMはコードよりも自然言語の推論が優れていることがわかった。さらに、自然言語とコードは相補的な推論の形式として機能するが、特定のシナリオでは負の形で互いに影響しあうことができる。これらの知見は, LLMを利用して最適推論形式を動的に選択し, GPT-4o-miniと同等のベースライン上での性能を向上させるメタマスという新たなプロンプト手法の開発を動機付けている。

関連論文リスト

LOGICPO: Efficient Translation of NL-based Logical Problems to FOL using LLMs and Preference Optimization [6.173941239083289]
本稿では、選好最適化データセットにファインタニングを用いて、自然言語問題全体を一貫した論理プログラムに解析し、表現することを提案する。 Phi-3.5による最良のモデルでは、GPT-3.5-turboよりも10%精度が高く、構文エラーが14%少ない。
論文参考訳（メタデータ） (2025-06-23T08:15:24Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された下線最適化問題を解くためのフレームワークである textbfOptimAI を紹介する。本フレームワークは,(1) アンフフォーマレータ,(2) アンフプランナー,(3) エンプコーダ,およびエンプコード評論家の4つの重要な役割に基づいて構築されている。 NLP4LPデータセットでは88.1%の精度で、Optibenchサブセットでは71.2%の精度でエラー率を58%と50%減らしている。
論文参考訳（メタデータ） (2025-04-23T17:45:05Z)
Making LLMs Reason? The Intermediate Language Problem in Neurosymbolic Approaches [49.567092222782435]
本稿では、ニューロシンボリックアプローチに適した形式言語表現を選択する問題である中間言語問題を紹介する。全体の精度は53.20%、実行精度は49.26%である。 GPT4o-mini LLMを使用すると、ProofWriterデータセットの全体的な精度が21.20%、50.50%向上する。
論文参考訳（メタデータ） (2025-02-24T14:49:52Z)
Towards LLM-based optimization compilers. Can LLMs learn how to apply a single peephole optimization? Reasoning is all LLMs need! [0.9054540533394926]
細調整されていないOpenAI GPT-o1は、微調整されたLlama2とGPT-4oより優れていることを示す。この利点は, GPT-o1に実装された連鎖推論が原因であることが示唆された。
論文参考訳（メタデータ） (2024-12-11T18:44:31Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
LOGIC-LM++: Multi-Step Refinement for Symbolic Formulations [1.024113475677323]
本稿では Logic-LM++ を改良した Logic-LM++ を提案する。 LLMの機能をペアで比較し、LLMが提案する改善点の評価を可能にする。
論文参考訳（メタデータ） (2024-06-22T12:50:41Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文参考訳（メタデータ） (2024-01-12T18:03:54Z)
How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文参考訳（メタデータ） (2024-01-11T09:27:50Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。 LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文参考訳（メタデータ） (2023-11-10T16:23:50Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Leveraging Large Language Models to Generate Answer Set Programs [5.532477732693001]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示した。本稿では,大規模言語モデルの強みと解集合プログラミングを組み合わせたニューロシンボリック手法を提案する。
論文参考訳（メタデータ） (2023-07-15T03:40:55Z)
ChatABL: Abductive Learning via Natural Language Interaction with ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。 LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-21T16:23:47Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。