論文の概要: PARAMANU-GANITA: Can Small Math Language Models Rival with Large Language Models on Mathematical Reasoning?
- arxiv url: http://arxiv.org/abs/2404.14395v2
- Date: Wed, 05 Mar 2025 18:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:50:28.396912
- Title: PARAMANU-GANITA: Can Small Math Language Models Rival with Large Language Models on Mathematical Reasoning?
- Title(参考訳): PARAMANU-GANITA: 数学的推論に基づく大規模言語モデルによる小数理モデル構築は可能か?
- Authors: Mitodru Niyogi, Arnab Bhattacharya,
- Abstract要約: 本研究では,SLM(Small Generative Language Model)のドメイン特化事前学習が,ドメイン特化トークン化とCoT(Chain-of-Thought)命令の微調整が競合性能に与える影響について検討した。
パラマヌ・ガニータ(Paramanu-Ganita)は2億8800万のパラメータを持つ新規デコーダのみのオートレグレッシブSLMを数学で紹介する。
- 参考スコア(独自算出の注目度): 3.9018931027384056
- License:
- Abstract: In this paper, we study whether domain specific pretraining of small generative language models (SLM) from scratch with domain specialized tokenizer and Chain-of-Thought (CoT) instruction fine-tuning results in competitive performance on mathematical reasoning compared to LLMs? Secondly, whether this approach is environmentally sustainable, highly cost efficient? To address these research questions, we present Paramanu-Ganita, a 208 million-parameter novel decoder-only Auto Regressive SLM on mathematics. We performed pretraining from scratch on 31.5 billion tokens for 170 A100 hours using a context size of 4096 on a mixed mathematical corpus consisting of web pages, source code, textbooks, CoT templatised StackOverflow QA pairs, and mathematical lecture notes in LaTeX curated by us. We also trained a math and code specialised BPE tokenizer. We proposed and performed CoT instruction fine-tuning of Paramanu-Ganita on the MetaMathQA dataset. Our model Paramanu-Ganita, despite being 34 times smaller than the 7B LLMs, outperforms generalist LLMs by approximately 30% points, and even math-specialised LLMs by 3-23% points in GSM8K test accuracy metric. On MATH benchmark, Paramanu-Ganita outperformed the various models by 6-8% points. On benchmarks like LogiQA, MMLU (high school, college level), and competitive exams level, AGIEVAL (AQuA-RAT, SAT-Math), Paramanu-Ganita outperformed others by 1-4%. Our model is available at https://huggingface.co/gyanai/paramanu-ganita-208M-hf .
- Abstract(参考訳): 本稿では,小規模生成言語モデル(SLM)のドメイン特化事前学習を,ドメイン特化トークンとCoT命令によるスクラッチから行うことで,LLMと比較して数学的推論における競合性能が向上するかどうかを検討する。
第二に、このアプローチが環境的に持続可能か、非常にコスト効率が高いか?
これらの研究課題に対処するため,パラマヌ・ガニータ(Paramanu-Ganita)について紹介する。
我々は、Webページ、ソースコード、教科書、CoTテンプレート化されたStackOverflow QAペア、LaTeXでキュレートされた数学的講義ノートからなる混合数学的コーパス上で、4096の文脈サイズを用いて、315億のトークンを170A100時間スクラッチから事前トレーニングを行った。
また,BPEトークンを専門とする数学やコードも訓練した。
そこで我々は,MetaMathQAデータセット上でParamanu-GanitaのCoT命令の微調整を行った。
我々のモデルであるParamanu-Ganitaは、7B LLMの34倍小さいにもかかわらず、GSM8Kテスト精度測定において、一般LLMを約30%上回り、数学特化LLMを3~23%上回ります。
MATHベンチマークでは、Paramanu-Ganitaが6-8%で様々なモデルを上回った。
LogiQA、MMLU(高校、大学レベル)、AGIEVAL(AQuA-RAT、SAT-Math)などのベンチマークでは、Paramanu-Ganitaが1-4%向上した。
私たちのモデルはhttps://huggingface.co/gyanai/paramanu-ganita-208M-hf で利用可能です。
関連論文リスト
- WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文 参考訳(メタデータ) (2024-10-09T23:37:36Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - Boosting Theory-of-Mind Performance in Large Language Models via
Prompting [2.538209532048867]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。
ToM理解の改善における文脈内学習の有効性を検討した。
論文 参考訳(メタデータ) (2023-04-22T22:50:50Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - Large Language Models Can Self-Improve [34.78624270280148]
我々は、事前学習したLLMを用いて、ラベルなし質問に対する「高信頼」理性強化された回答を生成する。
提案手法は, 根拠となる真理ラベルを使わずに, 最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-20T21:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。