論文の概要: Star Elastic: Many-in-One Reasoning LLMs with Efficient Budget Control
- arxiv url: http://arxiv.org/abs/2605.07182v1
- Date: Fri, 08 May 2026 03:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.77348
- Title: Star Elastic: Many-in-One Reasoning LLMs with Efficient Budget Control
- Title(参考訳): 星の弾性: 効率的な予算制御を施した多対一共振LDM
- Authors: Ali Taghibakhshi, Ruisi Cai, Saurav Muralidharan, Sharath Turuvekere Sreenivas, Aditya Vavre, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Sheldon Liang, Marcin Chochowski, Zijia Chen, Akhiad Bercovich, Ran Zilberstein, Ran El-Yaniv, Yonatan Geifman, Daniel Korzekwa, Yoshi Suhara, Oluwatobi Olabiyi, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov,
- Abstract要約: 大規模言語モデル(LLM)のための新しいポストトレーニング手法であるStar Elasticを紹介する。
Star Elasticは、ある親の推論モデルにNのネストされたサブモデルを追加し、1回のトレーニング後のジョブで1回の実行(N-fold saves)を実行する。
The Nemotron Elastic framework, we apply Star Elastic to the NVIDIA Nemotron Nano model。
- 参考スコア(独自算出の注目度): 27.041571161298688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a family of large language models (LLMs), either from scratch or via iterative compression, is prohibitively expensive and inefficient, requiring separate training runs for each model in the family. In this paper, we introduce Star Elastic, a novel LLM post-training method that adds N nested submodels to a given parent reasoning model using the compute of one run (N-fold savings) via a single post-training job. Beyond reducing training costs, Star Elastic also addresses a fundamental limitation of efficient reasoning: the rigidity of static architectures, which forces the allocation of constant resources regardless of token difficulty. By unlocking elastic budget control, Star Elastic enables a novel inference scheme that uses different submodels for each reasoning phase (thinking and answering). Star Elastic supports (1) nesting along the SSM, embedding channel, MoE, and FFN axes, (2) learning nested submodels via an end-to-end trainable router, and (3) curriculum-based knowledge distillation. Building on the Nemotron Elastic framework, we apply Star Elastic to the NVIDIA Nemotron Nano models, with a particular focus on hybrid Mixture-of-Experts (MoE) architectures: from Nemotron Nano v3 (30B/3.6A), we generate 23B (2.8A) and 12B (2.0A) variants with 160B training tokens. All nested models match or outperform independently trained baselines of comparable size and achieve a 360x reduction versus pretraining from scratch and a 7x reduction over state-of-the-art compression. Crucially, elastic budget control advances the accuracy-latency Pareto frontier, achieving up to 16% higher accuracy and 1.9x lower latency via dynamic per-phase model selection. We further extend Star Elastic to quantized regimes via Quantization-Aware Distillation (QAD), producing nested NVFP4 and FP8 elastic checkpoints that preserve zero-shot slicing while delivering smaller deployment footprints.
- Abstract(参考訳): 大規模な言語モデルのファミリー(LLM)をスクラッチから、あるいは反復圧縮によって訓練することは違法に高価で非効率であり、家族内のモデルごとに個別のトレーニングを実行する必要がある。
本稿では,1回のラン(N-fold saves)を1回のポストトレーニングジョブで計算し,N個のネスト付きサブモデルを与えられた親推論モデルに追加する,新しいLCMポストトレーニング手法であるStar Elasticを紹介する。
トレーニングコストの削減に加えて、Star Elasticは効率的な推論の基本的な制限、すなわち静的アーキテクチャの剛性にも対処している。
弾力性のある予算制御をアンロックすることで、Star Elasticは推論フェーズごとに異なるサブモデルを使用する新しい推論スキームを実現する。
Star Elasticは、(1)SSMに沿ったネスト、(2)埋め込みチャネル、MoE、FFN軸、(2)エンドツーエンドのトレーニング可能なルータによるネストされたサブモデル学習、(3)カリキュラムベースの知識蒸留をサポートする。
Nemotron Elasticフレームワーク上に構築されたStar ElasticをNVIDIA Nemotron Nanoモデルに適用し、Nemotron Nano v3 (30B/3.6A)から、160Bのトレーニングトークンを持つ23B (2.8A)と12B (2.0A)の変種を生成するハイブリッドMixture-of-Experts (MoE)アーキテクチャに特に焦点をあてる。
すべてのネストされたモデルは、同等の大きさの独立に訓練されたベースラインと一致または性能を向上し、スクラッチから事前トレーニングするよりも360倍の削減と、最先端の圧縮よりも7倍の削減を達成する。
重要なことは、弾力性のある予算制御が精度の高いParetoフロンティアを前進させ、16%の精度と1.9倍のレイテンシを動的にフェーズ単位のモデル選択によって達成する。
さらに、Star Elasticを量子化対応蒸留(QAD)により量子化されたレシエーションに拡張し、ネストしたNVFP4とFP8の弾性チェックポイントを生成し、ゼロショットスライシングを維持しながら、より小さなデプロイメントフットプリントを提供する。
関連論文リスト
- FlexRank: Nested Low-Rank Knowledge Decomposition for Adaptive Model Deployment [20.331469310989956]
重要順序付きネスト成分は事前訓練されたモデルから抽出でき、利用可能な計算予算に基づいて選択的に活性化される。
このアプローチは、各予算のスクラッチからトレーニングすることなく、コストとパフォーマンスの間の優雅なトレードオフを提供する"トレインオンス、デプロイ、どこでも"のパラダイムを可能にします。
論文 参考訳(メタデータ) (2026-02-02T19:01:40Z) - Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs [80.72350166388601]
Nemotron Elasticは推論指向のLLMを構築するためのフレームワークである。
ネストしたサブモデルを単一の親モデルに組み込む。
これらのサブモデルはそれぞれ、親モデルと重みを共有し、デプロイ中にゼロショットを抽出できる。
論文 参考訳(メタデータ) (2025-11-20T18:59:21Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。
スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。
以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文 参考訳(メタデータ) (2025-09-30T09:28:47Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Balanced and Elastic End-to-end Training of Dynamic LLMs [2.7461964910607097]
大規模分散トレーニングのための自律動的負荷分散ソリューションDynMoを提案する。
DynMoは、作業負荷の不均衡を最大に低減し、作業者間での計算負荷を適応的に等しくする。
Megatron-LMやDeepSpeedのような静的分散トレーニングソリューションと比較して、DynMoは動的GPTモデルのエンドツーエンドトレーニングをMoEsの最大1.23倍、パラメータプルーニングの3.18倍、層凍結の2.23倍、スパースアテンションの4.02倍、早期出口の4.52倍、MoDsの1.17倍に加速する。
論文 参考訳(メタデータ) (2025-05-20T19:52:57Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。