論文の概要: Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2508.15884v3
- Date: Sun, 28 Sep 2025 18:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.17049
- Title: Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search
- Title(参考訳): Jet-Nemotron:ポストニューラルアーキテクチャ検索による効率的な言語モデル
- Authors: Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai,
- Abstract要約: Jet-Nemotronはハイブリッドアーキテクチャ言語モデルの新しいファミリーである。
それは、主要なフルアテンションモデルの正確さと一致または超える。
- 参考スコア(独自算出の注目度): 42.46046429414803
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Jet-Nemotron, a new family of hybrid-architecture language models, which matches or exceeds the accuracy of leading full-attention models while significantly improving generation throughput. Jet-Nemotron is developed using Post Neural Architecture Search (PostNAS), a novel neural architecture exploration pipeline that enables efficient model design. Unlike prior approaches, PostNAS begins with a pre-trained full-attention model and freezes its MLP weights, allowing efficient exploration of attention block designs. The pipeline includes four key components: (1) learning optimal full-attention layer placement and elimination, (2) linear attention block selection, (3) designing new attention blocks, and (4) performing hardware-aware hyperparameter search. Our Jet-Nemotron-2B model achieves comparable or superior accuracy to Qwen3, Qwen2.5, Gemma3, and Llama3.2 across a comprehensive suite of benchmarks while delivering up to 53.6x generation throughput speedup and 6.1x prefilling speedup. It also achieves higher accuracy on MMLU and MMLU-Pro than recent advanced MoE full-attention models, such as DeepSeek-V3-Small and Moonlight, despite their larger scale with 15B total and 2.2B activated parameters.
- Abstract(参考訳): 提案するJet-Nemotronはハイブリッドアーキテクチャ言語モデルの新たなファミリであり、生成スループットを著しく向上させながら、先行するフルアテンションモデルの精度を一致または超過する。
Jet-NemotronはPost Neural Architecture Search (PostNAS)を使用して開発されている。
従来のアプローチとは異なり、PostNASはトレーニング済みのフルアテンションモデルから始まり、MDPの重量を凍結し、注意ブロックの設計を効率的に探索することができる。
パイプラインには,(1)最適全アテンション層配置と除去の学習,(2)線形アテンションブロックの選択,(3)新しいアテンションブロックの設計,(4)ハードウェア対応ハイパーパラメータサーチの実行の4つの重要なコンポーネントが含まれている。
我々のJet-Nemotron-2Bモデルは、ベンチマークスイート全体でQwen3、Qwen2.5、Gemma3、Llama3.2に匹敵する精度または優れた精度を実現し、最大53.6倍のスループットと6.1倍のプリフィルスピードを提供する。
MMLUとMMLU-Proの精度は、DeepSeek-V3-SmallやMoonlightのような最近のMoEのフルアテンションモデルよりも高い。
関連論文リスト
- Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts [16.810363861148513]
Nanbeige4.1-3Bはオープンソースの小型言語モデル(SLM)である。
3Bパラメータしか持たない強力なエージェント動作、コード生成、一般的な推論を同時に達成する。
以上の結果から,小型モデルでは,幅広い能力と強力な特殊化を同時に達成できることが示唆された。
論文 参考訳(メタデータ) (2026-02-13T13:10:46Z) - NVIDIA Nemotron 3: Efficient and Open Intelligence [227.47413816066845]
ネモトロン3シリーズは強力なエージェント、推論、会話能力を提供する。
ネモトロン3モデルは、推論を可能にするマルチ環境強化学習、多段階ツールの使用、きめ細かい推論予算制御のサポートを用いて、後から訓練される。
Nemotron 3ファミリは、Mixture-of-ExpertsハイブリッドのMamba-Transformerアーキテクチャを使用して、最高レベルのスループットと最大100万トークンのコンテキスト長を提供する。
論文 参考訳(メタデータ) (2025-12-24T00:24:05Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Llama-Nemotron: Efficient Reasoning Models [105.18850667504097]
ヘテロジニアス推論モデルの開族であるLlama-Nemotronシリーズを導入する。
サイズはNano(8B)、Super(49B)、Ultra(253B)の3種類。
論文 参考訳(メタデータ) (2025-05-02T01:35:35Z) - Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [192.5620883942846]
ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。
私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。
Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
論文 参考訳(メタデータ) (2025-04-04T17:41:58Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。