論文の概要: Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2511.16664v1
- Date: Thu, 20 Nov 2025 18:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.809228
- Title: Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
- Title(参考訳): ネモトロン弾性:高効率多点共振LDMを目指して
- Authors: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov,
- Abstract要約: Nemotron Elasticは推論指向のLLMを構築するためのフレームワークである。
ネストしたサブモデルを単一の親モデルに組み込む。
これらのサブモデルはそれぞれ、親モデルと重みを共有し、デプロイ中にゼロショットを抽出できる。
- 参考スコア(独自算出の注目度): 80.72350166388601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.
- Abstract(参考訳): 複数のスケールとデプロイメント目標をターゲットにした大規模な言語モデルのファミリーをトレーニングするには、さまざまなサイズ毎に個別のトレーニングを実行する必要があるため、極めて高価である。
プルーニングと知識蒸留によるモデル圧縮に関する最近の研究は、このコストを削減しているが、このプロセスは、圧縮されたモデル当たりのトレーニングコストとして数十億のトークンを発生させる。
本稿では,単一親モデルに複数のネスト付きサブモデルを組み込むハイブリッド型Mamba-Attentionアーキテクチャを含む,推論指向LLMを構築するためのフレームワークであるNemotron Elasticについて述べる。
これらのサブモデルはいずれも親モデルと重みを共有しており、追加のトレーニングや微調整なしにデプロイ中にゼロショットを抽出することができる。
我々は、エンドツーエンドのトレーニングルータを通じてこの機能を有効にし、推論モデル用に設計された2段階のトレーニングカリキュラムと密結合する。
さらに,マンバの構造的制約,不均一なMPPの破砕,深度選択の高度化に欠かせないMSE層,多予算同時最適化が可能な知識蒸留などのグループ対応SSM破砕についても紹介する。
The Nemotron Elastic to the Nemotron Nano V2 12B model, also generated a 9B and a 6B model using only 110B training tokens, this results over 360x cost compared than training model family from scratch, and around 7x than SoTA compression technique。
ネストされたモデルはそれぞれ、精度でSoTAと同等かそれ以上で動作します。
さらに、他の圧縮手法とは異なり、我々のアプローチのネストされた能力は、家族内のモデル数に対して、一定の配置メモリを持つ複数対1の推論モデルを持つことを可能にします。
関連論文リスト
- Minitron-SSM: Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [76.88243649182886]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T17:26:29Z) - Efficient Construction of Model Family through Progressive Training Using Model Expansion [35.743595710122506]
本稿では,進行学習によるモデルファミリの効率的な構築法を提案する。
本手法は,独立に訓練されたモデルに匹敵する性能を維持しつつ,計算コストを約25%削減する。
論文 参考訳(メタデータ) (2025-04-01T10:21:52Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。