Fugu-MT 論文翻訳(概要): Common 7B Language Models Already Possess Strong Math Capabilities

論文の概要: Common 7B Language Models Already Possess Strong Math Capabilities

arxiv url: http://arxiv.org/abs/2403.04706v1
Date: Thu, 7 Mar 2024 18:00:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:03:09.427326
Title: Common 7B Language Models Already Possess Strong Math Capabilities
Title（参考訳）: 共通7B言語モデルはすでに強力な数学能力を持っている
Authors: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
Abstract要約: 本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
参考スコア（独自算出の注目度）: 61.61442513067561
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.
Abstract（参考訳）: 数学の能力は、以前は、非常に大規模にのみ共通言語モデルに現れると考えられていた。本稿では,GSM8K と MATH のベンチマークでそれぞれ 9 7% と 72.0% の精度で,256 個の乱数世代から最高の応答を選択する際に,LLaMA-2 7B モデルがすでに強い数学的能力を示すことを示す。現在のベースモデルの主な問題は、その固有の数学的能力を一貫して引き出すことの難しさである。特に、最初の回答の精度は GSM8K と MATH のベンチマークでそれぞれ 49.5% と 7.9% に低下した。 SFTデータを単純にスケールアップするだけで、正しい回答を生成する信頼性が大幅に向上することがわかった。しかし、大規模なスケーリングの可能性は、公開可能な数学質問の不足によって制限されている。この限界を克服するために,我々は合成データを用い,実データとほぼ同等の効果を示し,約100万サンプルまでスケールアップしても明確な飽和度は示さない。この単純なアプローチは、GSM8Kで82.6%、MATHで40.6%の精度をLLaMA-2 7Bモデルで達成し、それぞれ14.2%、20.8%を上回りました。また、さまざまな推論の複雑さとエラータイプにまたがる動作のスケーリングに関する洞察も提供します。

関連論文リスト

DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文参考訳（メタデータ） (2025-04-15T17:02:15Z)
Zero-Shot Commonsense Validation and Reasoning with Large Language Models: An Evaluation on SemEval-2020 Task 4 Dataset [0.16385815610837165]
本研究では,SemEval-2020 Task 4データセット上でのLarge Language Models(LLM)の性能を評価する。モデルは、タスクA(Commonsense Validation)とタスクB(Commonsense Explanation)の2つのタスクでテストされる。結果、LLaMA3-70BはタスクAで98.40%の最高精度を達成し、タスクBで93.40%の旧モデルより遅れていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-19T12:40:49Z)
LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ [0.0]
大規模言語モデル(LLM)は、数学的な推論を必要とするタスク、特に多重選択質問(MCQ)にしばしば苦労する。我々は,STEM分野におけるMCQの解決と理解を支援するLLaMa-SciQを開発した。数学的推論では、LLaMa-SciQはGSM8kデータセットで74.5%、MATHデータセットで30%の精度を達成した。
論文参考訳（メタデータ） (2024-09-25T09:41:46Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.573055530800853]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文参考訳（メタデータ） (2024-05-01T05:52:05Z)
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。 KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。 KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文参考訳（メタデータ） (2024-03-04T18:58:30Z)
Orca-Math: Unlocking the potential of SLMs in Grade School Math [10.206509967833664]
最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは、34億のパラメータであると仮定されている。より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。エージェントが協調してデータを作成するマルチエージェントセットアップを使用して、200Kの数学問題の高品質な合成データセットを作成する。
論文参考訳（メタデータ） (2024-02-16T23:44:38Z)
TinyGSM: achieving >80% on GSM8k with small language models [49.21136294791747]
小型モデルは様々な計算上の利点を提供するが、どの程度の大きさが問題解決能力にとって重要なのかは未解決のままである。特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るために必要なモデルサイズは、まだ34Bである。我々の研究は、数学的な推論を得るための小さな言語モデルにとって、高品質なデータセットがどのように鍵となるかを研究する。
論文参考訳（メタデータ） (2023-12-14T18:58:28Z)
MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。 MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文参考訳（メタデータ） (2023-09-11T17:47:22Z)
A contextual analysis of multi-layer perceptron models in classifying hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2021-07-05T04:30:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。