論文の概要: MARS: Enabling Autoregressive Models Multi-Token Generation
- arxiv url: http://arxiv.org/abs/2604.07023v1
- Date: Wed, 08 Apr 2026 12:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.526561
- Title: MARS: Enabling Autoregressive Models Multi-Token Generation
- Title(参考訳): MARS:マルチトークン・ジェネレーションによる自己回帰モデルの実現
- Authors: Ziqi Jin, Lei Wang, Ziwei Luo, Aixin Sun,
- Abstract要約: 自動回帰(AR)言語モデルは、先行した文脈で連続したトークンが高度に予測可能な場合でも、一度に1つのトークンを生成する。
我々は,前方通過毎に複数のトークンを予測する命令調整ARモデルを,軽量な微調整法であるMARSを紹介した。
- 参考スコア(独自算出の注目度): 34.63470140050534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) language models generate text one token at a time, even when consecutive tokens are highly predictable given earlier context. We introduce MARS (Mask AutoRegreSsion), a lightweight fine-tuning method that teaches an instruction-tuned AR model to predict multiple tokens per forward pass. MARS adds no architectural modifications, no extra parameters, and produces a single model that can still be called exactly like the original AR model with no performance degradation. Unlike speculative decoding, which maintains a separate draft model alongside the target, or multi-head approaches such as Medusa, which attach additional prediction heads, MARS requires only continued training on existing instruction data. When generating one token per forward pass, MARS matches or exceeds the AR baseline on six standard benchmarks. When allowed to accept multiple tokens per step, it maintains baseline-level accuracy while achieving 1.5-1.7x throughput. We further develop a block-level KV caching strategy for batch inference, achieving up to 1.71x wall-clock speedup over AR with KV cache on Qwen2.5-7B. Finally, MARS supports real-time speed adjustment via confidence thresholding: under high request load, the serving system can increase throughput on the fly without swapping models or restarting, providing a practical latency-quality knob for deployment.
- Abstract(参考訳): 自動回帰(AR)言語モデルは、先行した文脈で連続したトークンが高度に予測可能な場合でも、一度に1つのトークンを生成する。
Mask AutoRegreSsion(マスクオートレグリッション)は,プログレッシブパス毎に複数のトークンを予測するために,命令調整されたARモデルを教える軽量な微調整手法である。
MARSはアーキテクチャの変更も追加パラメータも加えず、パフォーマンスの劣化のないオリジナルのARモデルとまったく同じ名前で呼ばれる単一のモデルを生成する。
ターゲットと並行して別々のドラフトモデルを維持する投機的復号法や、追加の予測ヘッドを付加するMedusaのようなマルチヘッドアプローチとは異なり、MARSは既存の命令データに対する継続的なトレーニングのみを必要とする。
フォワードパス毎に1つのトークンを生成する場合、MARSは6つの標準ベンチマークでARベースラインにマッチまたは超える。
ステップ毎に複数のトークンを受け付けることが許されると、1.5-1.7倍のスループットでベースラインレベルの精度を維持する。
さらに,バッチ推論のためのブロックレベルのKVキャッシュ戦略を開発し,Qwen2.5-7B上でのKVキャッシュを用いたAR上での最大1.71倍のウォールクロック高速化を実現する。
最後に、MARSは信頼しきい値によるリアルタイムな速度調整をサポートする:高い要求負荷下では、サービスシステムはモデルを交換したり再起動することなく、オンザフライでスループットを向上させることができ、デプロイに実用的なレイテンシ品質のノブを提供する。
関連論文リスト
- Switch-Hurdle: A MoE Encoder with AR Hurdle Decoder for Intermittent Demand Forecasting [0.0]
断続的な需要は小売とサプライチェーンの予測において永続的な課題である。
本稿では,Mixture-of-Experts(MoE)エンコーダとHurdleベースの確率的デコーダを統合する新しいフレームワークであるSwitch-Hurdleを紹介する。
論文 参考訳(メタデータ) (2026-02-26T07:03:19Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - TiDAR: Think in Diffusion, Talk in Autoregression [59.94106070312094]
TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。
TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
論文 参考訳(メタデータ) (2025-11-12T02:59:33Z) - Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching [33.024044212891326]
Masked Autoregressive (MAR)モデルは、画像生成において有望なアプローチとして登場した。
我々はLazyMARを提案する。LazyMARは2つのキャッシュ機構を導入し、それらを1つずつ処理する。
本手法は, 生成品質をほぼ低下させることなく2.83倍の加速を実現する。
論文 参考訳(メタデータ) (2025-03-16T10:54:59Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。