論文の概要: Common 7B Language Models Already Possess Strong Math Capabilities
- arxiv url: http://arxiv.org/abs/2403.04706v1
- Date: Thu, 7 Mar 2024 18:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:03:09.427326
- Title: Common 7B Language Models Already Possess Strong Math Capabilities
- Title(参考訳): 共通7B言語モデルはすでに強力な数学能力を持っている
- Authors: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu,
Zheng Zhang, Houwen Peng
- Abstract要約: 本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
- 参考スコア(独自算出の注目度): 61.61442513067561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical capabilities were previously believed to emerge in common
language models only at a very large scale or require extensive math-related
pre-training. This paper shows that the LLaMA-2 7B model with common
pre-training already exhibits strong mathematical abilities, as evidenced by
its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks,
respectively, when selecting the best response from 256 random generations. The
primary issue with the current base model is the difficulty in consistently
eliciting its inherent mathematical capabilities. Notably, the accuracy for the
first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks,
respectively. We find that simply scaling up the SFT data can significantly
enhance the reliability of generating correct answers. However, the potential
for extensive scaling is constrained by the scarcity of publicly available math
questions. To overcome this limitation, we employ synthetic data, which proves
to be nearly as effective as real data and shows no clear saturation when
scaled up to approximately one million samples. This straightforward approach
achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B
models, surpassing previous models by 14.2% and 20.8%, respectively. We also
provide insights into scaling behaviors across different reasoning complexities
and error types.
- Abstract(参考訳): 数学の能力は、以前は、非常に大規模にのみ共通言語モデルに現れると考えられていた。
本稿では,GSM8K と MATH のベンチマークでそれぞれ 9 7% と 72.0% の精度で,256 個の乱数世代から最高の応答を選択する際に,LLaMA-2 7B モデルがすでに強い数学的能力を示すことを示す。
現在のベースモデルの主な問題は、その固有の数学的能力を一貫して引き出すことの難しさである。
特に、最初の回答の精度は GSM8K と MATH のベンチマークでそれぞれ 49.5% と 7.9% に低下した。
SFTデータを単純にスケールアップするだけで、正しい回答を生成する信頼性が大幅に向上することがわかった。
しかし、大規模なスケーリングの可能性は、公開可能な数学質問の不足によって制限されている。
この限界を克服するために,我々は合成データを用い,実データとほぼ同等の効果を示し,約100万サンプルまでスケールアップしても明確な飽和度は示さない。
この単純なアプローチは、GSM8Kで82.6%、MATHで40.6%の精度をLLaMA-2 7Bモデルで達成し、それぞれ14.2%、20.8%を上回りました。
また、さまざまな推論の複雑さとエラータイプにまたがる動作のスケーリングに関する洞察も提供します。
関連論文リスト
- MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - Orca-Math: Unlocking the potential of SLMs in Grade School Math [10.206509967833664]
最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは、34億のパラメータであると仮定されている。
より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。
エージェントが協調してデータを作成するマルチエージェントセットアップを使用して、200Kの数学問題の高品質な合成データセットを作成する。
論文 参考訳(メタデータ) (2024-02-16T23:44:38Z) - TinyGSM: achieving >80% on GSM8k with small language models [49.21136294791747]
小型モデルは様々な計算上の利点を提供するが、どの程度の大きさが問題解決能力にとって重要なのかは未解決のままである。
特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るために必要なモデルサイズは、まだ34Bである。
我々の研究は、数学的な推論を得るための小さな言語モデルにとって、高品質なデータセットがどのように鍵となるかを研究する。
論文 参考訳(メタデータ) (2023-12-14T18:58:28Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning
Generalization [56.24794149009814]
大規模言語モデル(LLM)を用いた数学推論では、クエリの進化と多様な推論経路による微調整データ拡張が実証的に有効である。
1)データ拡張の戦略はより効果的か,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は、領域外の数学的推論タスクに一般化を動機付けることができるのか?
論文 参考訳(メタデータ) (2023-10-09T08:18:58Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language
Models [94.71699322751327]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z) - A contextual analysis of multi-layer perceptron models in classifying
hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。
基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-05T04:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。