論文の概要: Apriel-H1: Towards Efficient Enterprise Reasoning Models
- arxiv url: http://arxiv.org/abs/2511.02651v1
- Date: Tue, 04 Nov 2025 15:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.090891
- Title: Apriel-H1: Towards Efficient Enterprise Reasoning Models
- Title(参考訳): Apriel-H1: 効率的なエンタープライズ推論モデルを目指して
- Authors: Oleksiy Ostapenko, Luke Kumar, Raymond Li, Denis Kocetkov, Joel Lamy-Poirier, Shruthan Radhakrishna, Soham Parikh, Shambhavi Mishra, Sebastien Paquet, Srinivas Sunkara, Valérie Bécaert, Sathwik Tejaswi Madhusudhan, Torsten Scholak,
- Abstract要約: ハイブリッドLLMのApriel-H1ファミリーは、15Bモデルサイズでの効率的な推論のためにトランスフォーマーアテンションとSSMシークエンスミキサーを組み合わせた。
SSM-to-MHA比の異なるApriel-H1-15B-Thinkerの蒸留後変種を複数リリースし、より多くのマンバ層がMHAに置き換わるにつれて、推論性能が劣化するかを分析した。
- 参考スコア(独自算出の注目度): 6.630534140883356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) achieve remarkable reasoning capabilities through transformer architectures with attention mechanisms. However, transformers suffer from quadratic time and memory complexity in the attention module (MHA) and require caching key-value states during inference, which severely limits throughput and scalability. High inference throughput is critical for agentic tasks, long-context reasoning, efficient deployment under high request loads, and more efficient test-time compute scaling. State Space Models (SSMs) such as Mamba offer a promising alternative with linear inference complexity and a constant memory footprint via recurrent computation with fixed-size hidden states. In this technical report we introduce the Apriel-H1 family of hybrid LLMs that combine transformer attention and SSM sequence mixers for efficient reasoning at 15B model size. These models are obtained through incremental distillation from a pretrained reasoning transformer, Apriel-Nemotron-15B-Thinker, progressively replacing less critical attention layers with linear Mamba blocks. We release multiple post-distillation variants of Apriel-H1-15B-Thinker with different SSM-to-MHA ratios and analyse how reasoning performance degrades as more Mamba layers replace MHA. Additionally, we release a 30/50 hybrid variant of Apriel-H1, further fine-tuned on a supervised dataset of reasoning traces, achieving over 2x higher inference throughput when deployed in the production-ready vLLM environment, with minimal degradation in reasoning performance. This shows that distilled hybrid SSM-Transformer architectures can deliver substantial efficiency gains over the pretrained transformer equivalent without substantially compromising the reasoning quality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、注意機構を備えたトランスフォーマーアーキテクチャを通じて、顕著な推論能力を達成する。
しかし、トランスフォーマーはアテンションモジュール(MHA)の2次時間とメモリの複雑さに悩まされ、推論中にキー値の状態をキャッシュする必要があるため、スループットとスケーラビリティが著しく制限される。
高推論スループットは、エージェントタスク、長期コンテキスト推論、高要求負荷下での効率的なデプロイメント、より効率的なテスト時間計算スケーリングに不可欠である。
Mambaのような状態空間モデル(SSM)は、線形推論の複雑さと一定のメモリフットプリントを、固定サイズの隠れ状態で繰り返し計算することで、有望な代替手段を提供する。
本稿では、15Bモデルサイズでの効率的な推論のためにトランスフォーマーアテンションとSSMシークエンスミキサーを組み合わせたハイブリッドLLMのApriel-H1ファミリーを紹介する。
これらのモデルは、事前訓練された推論変換器であるApriel-Nemotron-15B-Thinkerからの増分蒸留によって得られる。
SSM-to-MHA比の異なるApriel-H1-15B-Thinkerの蒸留後変種を複数リリースし、より多くのマンバ層がMHAに置き換わるにつれて、推論性能が劣化するかを分析した。
さらに、Apriel-H1の30/50ハイブリッド版をリリースし、さらに推論トレースの教師付きデータセットに基づいて微調整を行い、プロダクション対応のvLLM環境にデプロイした場合、推論スループットを2倍以上に向上し、推論性能の低下を最小限に抑えた。
このことは、蒸留されたハイブリッドSSM-Transformerアーキテクチャが、推論品質を実質的に損なうことなく、事前訓練された変換器等価性に対して実質的な効率向上をもたらすことを示している。
関連論文リスト
- The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts [5.10053312713569]
本稿では,近年のアーキテクチャシフト,すなわちMLA(Multi-head Latent Attention)とMixture-of-Experts(Mixture-of-Experts)が,特殊注意ハードウェアの前提に挑戦していることを論じる。
次世代トランスフォーマーにおける中心的な課題は、もはや単一のメモリバウンド層を加速させることではない。
代わりに、大規模モデルの多様な要求を管理するために、十分なメモリ容量、メモリ帯域幅、高帯域相互接続を備えたバランスのとれたシステムの設計に焦点を移さなければならない。
論文 参考訳(メタデータ) (2025-07-21T10:18:33Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models [83.77063985611846]
本稿では,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。
実験結果から,M1は従来の線形RNNモデルよりも優れていただけでなく,最先端のDeepSeek R1蒸留推論モデルの性能とも一致していることがわかった。
論文 参考訳(メタデータ) (2025-04-14T17:38:25Z) - Tensor Product Attention Is All You Need [61.3442269053374]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation [37.21518386315535]
長いコンテキストを扱うために言語モデルをスケールすることは、かなりのメモリ課題をもたらす。
LLaMAなどのモデルからハイブリッドなモデルに変換するLightTransferを提案する。
当社のアプローチでは,最近のトークンや初期トークンに注目した遅延レイヤを特定して,その全注目をストリーミングの注目に置き換えています。
論文 参考訳(メタデータ) (2024-10-17T17:58:14Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。