論文の概要: Can A Gamer Train A Mathematical Reasoning Model?
- arxiv url: http://arxiv.org/abs/2506.08935v1
- Date: Tue, 10 Jun 2025 16:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.775434
- Title: Can A Gamer Train A Mathematical Reasoning Model?
- Title(参考訳): ゲーマーは数学的推論モデルを訓練できるか?
- Authors: Andrew Shin,
- Abstract要約: 大規模言語モデル(LLM)は、数学的推論を含む様々なタスクにおいて顕著な性能を達成した。
最近の進歩は、訓練能力のあるモデルのコストを削減しているが、これらのアプローチでさえハイエンドのハードウェアクラスタに依存している。
我々は,1つの平均的なゲームGPUが,強化学習とメモリ最適化技術を統合することで,確固たる数学的推論モデルを訓練できることを実証した。
- 参考スコア(独自算出の注目度): 4.713817702376468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have achieved remarkable performance in various tasks including mathematical reasoning, their development typically demands prohibitive computational resources. Recent advancements have reduced costs for training capable models, yet even these approaches rely on high-end hardware clusters. In this paper, we demonstrate that a single average gaming GPU can train a solid mathematical reasoning model, by integrating reinforcement learning and memory optimization techniques. Specifically, we train a 1.5B parameter mathematical reasoning model on RTX 3080 Ti of 16GB memory that achieves comparable or better performance on mathematical reasoning benchmarks than models several times larger, in resource-constrained environments. Our results challenge the paradigm that state-of-the-art mathematical reasoning necessitates massive infrastructure, democratizing access to high-performance AI research. https://github.com/shinandrew/YouronMath.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論を含む様々なタスクにおいて顕著な性能を達成しているが、その開発は通常、禁止された計算資源を要求する。
最近の進歩は、訓練能力のあるモデルのコストを削減しているが、これらのアプローチでさえハイエンドのハードウェアクラスタに依存している。
本稿では,1つの平均的なゲーミングGPUが,強化学習とメモリ最適化技術を統合することで,ソリッドな数学的推論モデルを訓練できることを実証する。
具体的には、16GBメモリのRTX 3080 Ti上で1.5Bパラメータの数学的推論モデルをトレーニングし、資源制約のある環境では、数倍の精度で数学的推論ベンチマークに匹敵する性能を達成する。
我々の結果は、最先端の数学的推論が大規模なインフラを必要とし、高性能AI研究へのアクセスを民主化するパラダイムに挑戦する。
https://github.com/shinandrew/YouronMath.com
関連論文リスト
- Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [130.37945867605302]
本稿では,大規模言語モデル(LLM)の数学的CoT推論能力を向上させるWizardMathを提案する。
注目すべきは、WizardMath-Mistral 7BがトップクラスのオープンソースLLMをはるかに上回り、データ効率が向上したことだ。
予備的な調査では、卓越した数学性能を達成する上で、命令の進化とプロセスの監督が重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Maximizing Parallelism in Distributed Training for Huge Neural Networks [7.471658821614902]
本稿では,大規模言語モデルの高速化を目的とした3次元モデル並列化手法を提案する。
提案手法は,既存の1-Dモデルと2-Dモデルによる並列処理よりも,メモリと通信コストを小さくする。
論文 参考訳(メタデータ) (2021-05-30T07:41:08Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。