論文の概要: CoinMath: Harnessing the Power of Coding Instruction for Math LLMs
- arxiv url: http://arxiv.org/abs/2412.11699v1
- Date: Mon, 16 Dec 2024 12:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:34.130246
- Title: CoinMath: Harnessing the Power of Coding Instruction for Math LLMs
- Title(参考訳): CoinMath:数学LLMのためのコーディング命令のパワーを損なう
- Authors: Chengwei Wei, Bin Wang, Jung-jae Kim, Guimei Liu, Nancy F. Chen,
- Abstract要約: 大規模言語モデル (LLM) は数学的な問題を解く上で高い性能を示している。
数学的推論を強化するための符号化命令データを活用するベストプラクティスは、いまだ研究されていない。
CoinMathは、簡潔なコメント、記述的な命名規則、ハードコードされたソリューションを組み込んだ、さまざまなコードベースの論理を生成する。
- 参考スコア(独自算出の注目度): 34.07259769892295
- License:
- Abstract: Large Language Models (LLMs) have shown strong performance in solving mathematical problems, with code-based solutions proving particularly effective. However, the best practice to leverage coding instruction data to enhance mathematical reasoning remains underexplored. This study investigates three key questions: (1) How do different coding styles of mathematical code-based rationales impact LLMs' learning performance? (2) Can general-domain coding instructions improve performance? (3) How does integrating textual rationales with code-based ones during training enhance mathematical reasoning abilities? Our findings reveal that code-based rationales with concise comments, descriptive naming, and hardcoded solutions are beneficial, while improvements from general-domain coding instructions and textual rationales are relatively minor. Based on these insights, we propose CoinMath, a learning strategy designed to enhance mathematical reasoning by diversifying the coding styles of code-based rationales. CoinMath generates a variety of code-based rationales incorporating concise comments, descriptive naming conventions, and hardcoded solutions. Experimental results demonstrate that CoinMath significantly outperforms its baseline model, MAmmoTH, one of the SOTA math LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に有効性を示すコードベースのソリューションによって、数学的な問題を解決する上で大きなパフォーマンスを示している。
しかし、数学的推論を強化するために符号化命令データを活用するベストプラクティスはいまだ未定である。
本研究は,(1)数学的コードに基づく理性理論の異なるコーディングスタイルがLLMの学習性能にどのような影響を及ぼすか,という3つの重要な問いについて検討する。
(2)汎用ドメインコーディング命令は性能を向上できるか?
(3) 学習中の文章の合理化とコードに基づく合理化は数学的推論能力を高めるか?
この結果から,簡潔なコメントや記述的命名,ハードコードによるソリューションによるコードベース論理は有用であり,汎用的なコーディング命令やテキスト論理による改善は比較的少ないことが明らかとなった。
これらの知見に基づいて,コードに基づく論理のコーディングスタイルを多様化し,数学的推論を強化するための学習戦略であるCoinMathを提案する。
CoinMathは、簡潔なコメント、記述的な命名規則、ハードコードされたソリューションを組み込んだ、さまざまなコードベースの論理を生成する。
実験結果から,CoinMathのベースラインモデルであるMAmmoTHは,SOTA数学LLMの1つであることがわかった。
関連論文リスト
- MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code [38.127313175508746]
本稿では, 継続事前学習のための推論ステップを伴って, 数学的コードを生成する新しい手法を提案する。
私たちのアプローチは、高品質な数学的継続事前学習データセットの構築から始まります。
生成されたコードを推論ステップ毎に適用すると、ペアの自然言語推論ステップとその対応するコードからなるデータが得られる。
論文 参考訳(メタデータ) (2024-10-10T17:58:40Z) - INC-Math: Integrating Natural Language and Code for Enhanced Mathematical Reasoning in Large Language Models [21.082464220284127]
自然言語とコードを用いた数学的推論問題の解法に関する基礎的疑問を考察する。
その結果,LLMはコードよりも自然言語の推論が優れていることがわかった。
自然言語とコードは相補的な推論の形式として機能するが、特定のシナリオでは互いに負の形で影響を及ぼすことがある。
論文 参考訳(メタデータ) (2024-09-28T15:12:55Z) - FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models [44.63505885248145]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文 参考訳(メタデータ) (2024-03-12T15:32:39Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - ConceptMath: A Bilingual Concept-wise Benchmark for Measuring
Mathematical Reasoning of Large Language Models [67.32868432113587]
本稿では,Large Language Models (LLMs) の概念的数学的推論を評価するための詳細なベンチマークであるConceptMathを紹介する。
一般的な数学的推論を平均精度で評価する従来のベンチマークとは異なり、ConceptMathは数学の問題を数学的概念の階層の下に体系的に整理する。
論文 参考訳(メタデータ) (2024-02-22T16:06:49Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。