論文の概要: Apriel-Nemotron-15B-Thinker
- arxiv url: http://arxiv.org/abs/2508.10948v1
- Date: Wed, 13 Aug 2025 17:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.604736
- Title: Apriel-Nemotron-15B-Thinker
- Title(参考訳): Apriel-Nemotron-15B-Thinker
- Authors: Shruthan Radhakrishna, Soham Parikh, Gopal Sarda, Anil Turkkan, Quaizar Vohra, Raymond Li, Dhruv Jhamb, Kelechi Ogueji, Aanjaneya Shukla, Oluwanifemi Bamgbose, Toby Liang, Luke Kumar, Oleksiy Ostapenko, Shiva Krishna Reddy Malay, Aman Tiwari, Tara Bogavelli, Vikas Yadav, Jash Mehta, Saloni Mittal, Akshay Kalkunte, Pulkit Pattnaik, Khalil Slimi, Anirudh Sreeram, Jishnu Nair, Akintunde Oladipo, Shashank Maiya, Khyati Mahajan, Rishabh Maheshwary, Masoud Hashemi, Sai Rajeswar Mudumba, Sathwik Tejaswi Madhusudhan, Torsten Scholak, Sebastien Paquet, Sagar Davasam, Srinivas Sunkara,
- Abstract要約: Apriel-Nemotron-15B-Thinkerは、ServiceNow Apriel SLMシリーズの15ビリオンパラメータモデルである。
o1-mini、QWQ32B、EXAONE-Deep-32Bといった中規模の最先端モデルに対して性能が向上する。
- 参考スコア(独自算出の注目度): 12.580222268084036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have achieved remarkable reasoning capabilities across domains like code, math and other enterprise tasks, their significant memory and computational costs often preclude their use in practical enterprise settings. To this end, we introduce Apriel-Nemotron-15B-Thinker, a 15-billion parameter model in the ServiceNow Apriel SLM series that achieves performance against medium sized state-of-the-art models such as o1-mini, QWQ32B, and EXAONE-Deep-32B while maintaining only half the memory footprint of those alternatives. Apriel-Nemotron-15B-Thinker model is trained in a four stage training pipeline including 1) Base Model upscaling, 2) Continual Pre-training 3) Supervised Fine-tuning (SFT) and 4) Reinforcement Learning using GRPO. Comprehensive evaluations across a diverse suite of benchmarks consistently demonstrate that our Apriel-Nemotron-15B-Thinker model matches or exceeds the performance of its 32-billion parameter counterparts, despite being less than half their size.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード、数学、その他のエンタープライズタスクなどの領域で顕著な推論能力を達成したが、それらの大きなメモリと計算コストは、実用的なエンタープライズ環境での使用を妨げることが多い。
そこで我々は,ServiceNow Apriel SLMシリーズの15ビリオンパラメータモデルであるApriel-Nemotron-15B-Thinkerを紹介した。
Apriel-Nemotron-15B-Thinker模型は4段階の訓練パイプラインで訓練される
1)ベースモデルアップスケーリング
2【継続事前訓練】
3)監督微調整(SFT)と
4)GRPOを用いた強化学習。
Apriel-Nemotron-15B-Thinkerモデルが、その半分以下であるにもかかわらず、32ビリオンパラメータのモデルの性能と一致しているか、あるいは上回っていることを、様々なベンチマークの総合的な評価が一貫して示している。
関連論文リスト
- dots.llm1 Technical Report [22.612448834536067]
dots.llm1は142Bパラメータのうち14Bパラメータを活性化する大規模なMoEモデルである。
トレーニングと推論のコストを削減しつつ、最先端のモデルと同等のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-06T05:51:29Z) - Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。