論文の概要: N-vium: Mixture-of-Exits Transformer for Accelerated Exact Generation
- arxiv url: http://arxiv.org/abs/2605.13190v1
- Date: Wed, 13 May 2026 08:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.923934
- Title: N-vium: Mixture-of-Exits Transformer for Accelerated Exact Generation
- Title(参考訳): N-V: 加速励起発生用混合励起変圧器
- Authors: Aleksander Lorenc, Frédéric Berdoz, Joël Mathys, Roger Wattenhofer,
- Abstract要約: N-vium (N-vium) は、標準ハードウェア上での計算を部分的に並列化する変圧器である。
N-Viumは複数の深さで予測ヘッドを付加し、次のトーケン分布をこれらの出口上の学習混合物として定義する。
- 参考スコア(独自算出の注目度): 68.47358899451255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the inference efficiency of autoregressive transformers typically means reducing FLOPs per token, usually through approximations that degrade model quality. We introduce N-vium, a mixture-of-exits transformer that partially parallelizes computation across depth on standard hardware, increasing effective FLOPs per second rather than minimizing compute per token. N-vium attaches prediction heads at multiple depths and defines the next-token distribution as a learned mixture over these exits, with token-adaptive routing. This formulation strictly generalizes the standard transformer, which is recovered exactly when routing assigns zero mass to all intermediate heads. Sampling from the mixture is exact, and complete KV caches are recovered by deferring the upper-layer computation and batching it with later tokens. We pretrain N-vium at scales up to 1.5B parameters. Our largest model reaches 57.9% wall-clock speedup over a parameter- and data-matched standard transformer at no perplexity cost.
- Abstract(参考訳): 自己回帰変換器の推論効率を改善することは、通常、トークン当たりのFLOPを減らすことを意味する。
N-viumは、標準ハードウェア上での深度計算を部分的に並列化し、トークン当たりの計算を最小化するのではなく、1秒あたりの有効FLOPを増大させる。
N-viumは複数の深さで予測ヘッドをアタッチし、次のトーケン分布をトークン適応ルーティングによるこれらの出口上の学習混合として定義する。
この定式化は標準変圧器を厳密に一般化し、ルーティングがすべての中間ヘッドにゼロ質量を割り当てたときに正確に回収される。
混合器からのサンプリングは正確であり、上層計算を遅延させて後続のトークンでバッチすることで完全なKVキャッシュを復元する。
我々は,最大1.5BのパラメータでN-Viumをプレトレーニングした。
我々の最大のモデルは、パラメータとデータマッチング標準変換器上で57.9%のウォールクロックスピードアップに達し、複雑度を伴わない。
関連論文リスト
- The Recurrent Transformer: Greater Effective Depth and Efficient Decoding [48.9323408950142]
Recurrent Transformerは、各レイヤがそれぞれのアクティベーションから計算されたキーと値のペアに付随する、シンプルなアーキテクチャ変更である。
このアーキテクチャは, (i) 従来のトランスフォーマーと (ii) トークン・ツー・グレッシブ・リカレント更新の両方を軽度な仮定でエミュレートできることを示す。
論文 参考訳(メタデータ) (2026-04-23T02:12:58Z) - Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。
本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。
このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文 参考訳(メタデータ) (2025-01-06T06:34:52Z) - Sparse-VQ Transformer: An FFN-Free Framework with Vector Quantization
for Enhanced Time Series Forecasting [28.646457377816795]
スパースベクトル量子化FFN自由変換器(スパースVQ)について紹介する。
提案手法は,RevIN(Reverse Instance Normalization)と組み合わせた疎ベクトル量子化手法を用いてノイズの影響を低減する。
我々のFFNフリーアプローチは、パラメータカウントをトリムし、計算効率を向上し、オーバーフィッティングを減らす。
論文 参考訳(メタデータ) (2024-02-08T17:09:12Z) - MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T09:50:54Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。