論文の概要: Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2510.04146v1
- Date: Sun, 05 Oct 2025 10:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.490919
- Title: Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models
- Title(参考訳): 次世代予測を超えて:拡散対自己回帰型言語モデルの性能評価
- Authors: Minseo Kim, Coleman Hooper, Aditya Tomar, Chenfeng Xu, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
- 参考スコア(独自算出の注目度): 82.87985794856803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved state-of-the-art performance on a broad range of Natural Language Processing (NLP) tasks, including document processing and coding. Autoregressive Language Models (ARMs), which generate tokens sequentially conditioned on all previous tokens, have been the predominant paradigm for LLMs. However, while these networks have achieved high accuracy across a range of downstream tasks, they exhibit low arithmetic intensity due to the inherent sequential dependency with next-token prediction. Recently, Diffusion Language Models (DLMs) have emerged as a promising alternative architecture. DLMs generate output text in parallel, breaking the limitations of sequential dependency. However, the performance implications of DLMs relative to commonly deployed ARMs are not fully understood. In this work, we present a comprehensive performance study analyzing the performance characteristics of ARMs and DLMs, using both theoretical analysis and profiling data to characterize the trade-offs between these approaches. We illustrate that although DLMs exhibit higher arithmetic intensity compared to ARMs because of their capability to utilize parallelism across sequence lengths, they fail to scale effectively to longer contexts. We then explore DLMs with block-wise decoding, outlining how this approach allows for increased arithmetic intensity, while still scaling well to long contexts (similar to ARMs). We also show interesting trade-offs for batched inference, where we find that ARMs exhibit superior throughput, as they benefit more from parallelism across sequences in the batch. Finally, we highlight opportunities for accelerating DLM inference, and, in particular, highlight the importance of reducing the number of sampling steps for allowing open-source DLMs to provide improved latency relative to ARMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文書処理やコーディングを含む幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
自己回帰言語モデル(ARM)は、従来のトークンに連続的に条件付けされたトークンを生成するもので、LLMの主要なパラダイムである。
しかし、これらのネットワークは下流タスクの範囲で高い精度を達成しているが、次の予測に固有のシーケンシャル依存性のため、演算強度は低い。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
DLMは出力テキストを並列に生成し、逐次依存の限界を破る。
しかし、一般的にデプロイされるARMに対するDLMのパフォーマンスへの影響は、完全には理解されていない。
本研究では,ARMとDLMの性能特性を総合的に解析し,理論的解析とプロファイリングデータを用いて,これらの手法間のトレードオフを特徴づける。
DLMは、列長の並列性を利用する能力があるため、ARMと比較して高い演算強度を示すが、より長いコンテキストに効果的にスケールできない。
次にブロック単位のデコーディングでDLMを探索し、このアプローチによって算術強度が向上する一方で、長いコンテキスト(ARMと同じような)に拡張可能であることを概説する。
また、バッチ推論の興味深いトレードオフも示しています。そこでは、バッチ内のシーケンス間の並列性により恩恵を受けるため、ARMが優れたスループットを示すことが分かりました。
最後に、DLM推論を高速化する機会を強調し、特に、オープンソースDLMがARMに対する遅延を改善するためにサンプリングステップの数を減らすことの重要性を強調した。
関連論文リスト
- A Survey on Diffusion Language Models [30.00199970146068]
拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。
DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。
近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
論文 参考訳(メタデータ) (2025-08-14T17:47:22Z) - Semantic-Enhanced Time-Series Forecasting via Large Language Models [20.383296465541758]
時系列予測は、金融、エネルギー、気象学、IoTアプリケーションにおいて重要な役割を果たす。
近年,大規模言語モデル(LLM)の一般化機能を活用して時系列予測に適応し,有望な性能を実現している。
本稿では,時系列の固有周期性と異常特性を探索し,意味空間に埋め込むセマンティック拡張LDM(SE-LLM)を提案する。
論文 参考訳(メタデータ) (2025-08-11T07:19:21Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Large Language Diffusion Models [77.02553707673418]
自己回帰モデル(ARM)は、大規模言語モデル(LLM)の基盤として広く見なされている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインを上回っています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。