論文の概要: FOCUS: DLLMs Know How to Tame Their Compute Bound
- arxiv url: http://arxiv.org/abs/2601.23278v1
- Date: Fri, 30 Jan 2026 18:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.622671
- Title: FOCUS: DLLMs Know How to Tame Their Compute Bound
- Title(参考訳): FOCUS:DLLMは計算境界の扱い方を知っている
- Authors: Kaihua Liang, Xin Tan, An Zhong, Hong Xu, Marco Canini,
- Abstract要約: FOCUSは拡散大言語モデル(DLLM)のための推論システムである
計算はデオード可能なトークンに焦点を合わせ、非デコーダなトークンをオンザフライで取り除く。
プロダクショングレードエンジンのLMMよりも最大3.52$timesのスループット向上を実現している。
- 参考スコア(独自算出の注目度): 10.298643186738799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (DLLMs) offer a compelling alternative to Auto-Regressive models, but their deployment is constrained by high decoding cost. In this work, we identify a key inefficiency in DLLM decoding: while computation is parallelized over token blocks, only a small subset of tokens is decodable at each diffusion step, causing most compute to be wasted on non-decodable tokens. We further observe a strong correlation between attention-derived token importance and token-wise decoding probability. Based on this insight, we propose FOCUS -- an inference system designed for DLLMs. By dynamically focusing computation on decodable tokens and evicting non-decodable ones on-the-fly, FOCUS increases the effective batch size, alleviating compute limitations and enabling scalable throughput. Empirical evaluations demonstrate that FOCUS achieves up to 3.52$\times$ throughput improvement over the production-grade engine LMDeploy, while preserving or improving generation quality across multiple benchmarks. The FOCUS system is publicly available on GitHub: https://github.com/sands-lab/FOCUS.
- Abstract(参考訳): Diffusion Large Language Models (DLLM)はAuto-Regressiveモデルの魅力的な代替手段を提供するが、そのデプロイメントは高いデコードコストで制約される。
本研究では,DLLMデコーディングにおける重要な非効率性を同定する。トークンブロック上で計算が並列化されているが,各拡散ステップでトークンの小さなサブセットだけがデオード可能であるため,ほとんどの計算が非復号トークンで無駄にされる。
さらに、注意起因トークンの重要性とトークン単位の復号確率との強い相関関係を観察する。
この知見に基づいて,DLLM向けに設計された推論システム FOCUS を提案する。
復号化可能なトークンに動的に集中し、非復号化可能なトークンをオンザフライで削除することで、FOCUSは効率的なバッチサイズを拡大し、計算制限を緩和し、スケーラブルなスループットを実現する。
実証的な評価では、FOCUSはプロダクショングレードエンジンLMDeployよりも最大3.52$\times$スループットの改善を達成し、複数のベンチマークで生成品質を維持または改善している。
FOCUSシステムはGitHubで公開されている: https://github.com/sands-lab/FOCUS。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。