論文の概要: Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
- arxiv url: http://arxiv.org/abs/2511.18890v1
- Date: Mon, 24 Nov 2025 08:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.117846
- Title: Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
- Title(参考訳): Nemotron-Flash: Latency-Optimal Hybrid Small Language Modelsを目指して
- Authors: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov,
- Abstract要約: 本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
- 参考スコア(独自算出の注目度): 97.55009021098554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.
- Abstract(参考訳): スモールランゲージモデル(SLM)の効率的なデプロイは、待ち時間に制約のある多くの実世界のアプリケーションに不可欠である。
SLM設計に関するこれまでの研究は主にパラメータ最適化SLMを実現するためのパラメータの削減に重点を置いていたが、パラメータ効率は必ずしも比例的な実デバイススピードアップに変換されるとは限らない。
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、実デバイスレイテンシが主な考慮事項である場合、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
具体的には、深さ幅比と演算子選択の2つの中心的アーキテクチャ要素を同定する。
前者は小さなバッチサイズのレイテンシに不可欠であり、後者はレイテンシと大きなバッチサイズのスループットの両方に影響する。
これを踏まえて、我々は、遅延-最適深さ-幅比を最初に研究し、奥行きモデルが一般に同じパラメータ予算の下でより良い精度を達成しているにもかかわらず、それらは精度-遅延トレードオフフロンティアには当てはまらないことを発見した。
次に,提案手法の候補としての可能性を評価するために,より効率的な注目代替案について検討する。
提案手法を用いて,これらの演算子の遅延-最適結合をハイブリッドSLM内で自動的に検出し,精度・レイテンシ・フロンティアを向上する進化的探索フレームワークを構築した。
アーキテクチャの改善に加えて,より効果的な重み更新と最終収束性向上を可能にする重み正規化技術を用いて,SLMトレーニングをさらに強化する。
これらの手法を組み合わせることで、Nemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、Qwen3-1.7B/0.6Bに比べて5.5%以上の平均精度、1.3x/1.9x低レイテンシ、18.7x/45.6x高スループットを実現した。
関連論文リスト
- Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [45.58422897857411]
この研究は、LoRAを用いてパラメータ効率の良いCode Llamaを微調整することで、ハイパーパラメータ最適化のための大規模言語モデル(LLM)の使用について検討する。
提案手法は,計算オーバーヘッドを大幅に削減しつつ,競合的あるいは優れたRoot Mean Square Error(RMSE)を実現する。
その結果,LLMに基づく最適化によって,木構造型パーゼンエミュレータ (TPE) のようなベイズ的手法が確立されただけでなく,知覚品質と低レイテンシ処理を必要とする実世界のアプリケーションへのチューニングが高速化された。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Particle Swarm Optimized Federated Learning For Industrial IoT and Smart
City Services [9.693848515371268]
本研究では,局所機械学習モデルに対するハイパーパラメータ設定を最適化するために,PSOに基づく手法を提案する。
2つのケーススタディを用いて提案手法の性能評価を行った。
論文 参考訳(メタデータ) (2020-09-05T16:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。