論文の概要: Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
- arxiv url: http://arxiv.org/abs/2511.18890v1
- Date: Mon, 24 Nov 2025 08:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.117846
- Title: Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
- Title(参考訳): Nemotron-Flash: Latency-Optimal Hybrid Small Language Modelsを目指して
- Authors: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov,
- Abstract要約: 本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
- 参考スコア(独自算出の注目度): 97.55009021098554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.
- Abstract(参考訳): スモールランゲージモデル(SLM)の効率的なデプロイは、待ち時間に制約のある多くの実世界のアプリケーションに不可欠である。
SLM設計に関するこれまでの研究は主にパラメータ最適化SLMを実現するためのパラメータの削減に重点を置いていたが、パラメータ効率は必ずしも比例的な実デバイススピードアップに変換されるとは限らない。
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、実デバイスレイテンシが主な考慮事項である場合、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
具体的には、深さ幅比と演算子選択の2つの中心的アーキテクチャ要素を同定する。
前者は小さなバッチサイズのレイテンシに不可欠であり、後者はレイテンシと大きなバッチサイズのスループットの両方に影響する。
これを踏まえて、我々は、遅延-最適深さ-幅比を最初に研究し、奥行きモデルが一般に同じパラメータ予算の下でより良い精度を達成しているにもかかわらず、それらは精度-遅延トレードオフフロンティアには当てはまらないことを発見した。
次に,提案手法の候補としての可能性を評価するために,より効率的な注目代替案について検討する。
提案手法を用いて,これらの演算子の遅延-最適結合をハイブリッドSLM内で自動的に検出し,精度・レイテンシ・フロンティアを向上する進化的探索フレームワークを構築した。
アーキテクチャの改善に加えて,より効果的な重み更新と最終収束性向上を可能にする重み正規化技術を用いて,SLMトレーニングをさらに強化する。
これらの手法を組み合わせることで、Nemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、Qwen3-1.7B/0.6Bに比べて5.5%以上の平均精度、1.3x/1.9x低レイテンシ、18.7x/45.6x高スループットを実現した。
関連論文リスト
- Optimal Batch-Size Control for Low-Latency Federated Learning with Device Heterogeneity [30.53961003855146]
フェデレートラーニング(FL)は、第6世代(6G)ネットワークにおける協調機械学習の一般的なアプローチとして登場した。
FLアルゴリズムの展開は、自律運転、拡張現実、ヘルスケアなど、幅広いIoT(Internet-of-Things)アプリケーションを強化することが期待されている。
本稿では,収束性を確保しつつ,エンドツーエンド(E2E)学習遅延を最小限に抑える,バッチサイズ最適制御のための新しいC$2のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T13:24:38Z) - Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [45.58422897857411]
この研究は、LoRAを用いてパラメータ効率の良いCode Llamaを微調整することで、ハイパーパラメータ最適化のための大規模言語モデル(LLM)の使用について検討する。
提案手法は,計算オーバーヘッドを大幅に削減しつつ,競合的あるいは優れたRoot Mean Square Error(RMSE)を実現する。
その結果,LLMに基づく最適化によって,木構造型パーゼンエミュレータ (TPE) のようなベイズ的手法が確立されただけでなく,知覚品質と低レイテンシ処理を必要とする実世界のアプリケーションへのチューニングが高速化された。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Particle Swarm Optimized Federated Learning For Industrial IoT and Smart
City Services [9.693848515371268]
本研究では,局所機械学習モデルに対するハイパーパラメータ設定を最適化するために,PSOに基づく手法を提案する。
2つのケーススタディを用いて提案手法の性能評価を行った。
論文 参考訳(メタデータ) (2020-09-05T16:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。