論文の概要: Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion
- arxiv url: http://arxiv.org/abs/2605.12825v1
- Date: Tue, 12 May 2026 23:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.727755
- Title: Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion
- Title(参考訳): Orthrus: デュアルビュー拡散によるメモリ効率の良い並列トークン生成
- Authors: Chien Van Nguyen, Chaitra Hegde, Van Cuong Pham, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen,
- Abstract要約: Orthrusは、自己回帰型大規模言語モデル(LLM)の正確な生成忠実度と、拡散モデルの高速並列トークン生成を一体化するフレームワークである。
最大7.8倍のスピードアップを実現し、メモリキャッシュのオーバーヘッドはO(1)のみであり、パラメータの追加は最小限である。
- 参考スコア(独自算出の注目度): 91.43717463458812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Orthrus, a simple and efficient dual-architecture framework that unifies the exact generation fidelity of autoregressive Large Language Models (LLMs) with the high-speed parallel token generation of diffusion models. The sequential nature of standard autoregressive decoding represents a fundamental bottleneck for high-throughput inference. While diffusion language models attempt to break this barrier via parallel generation, they suffer from significant performance degradation, high training costs, and a lack of rigorous convergence guarantees. Orthrus resolves this dichotomy natively. Designed to seamlessly integrate into existing Transformers, the framework augments a frozen LLM with a lightweight, trainable module to create a parallel diffusion view alongside the standard autoregressive view. In this unified system, both views attend to the exact same high-fidelity Key-Value (KV) cache; the autoregressive head executes context pre-filling to construct accurate KV representations, while the diffusion head executes parallel generation. By employing an exact consensus mechanism between the two views, Orthrus guarantees lossless inference, delivering up to a 7.8x speedup with only an O(1) memory cache overhead and minimal parameter additions.
- Abstract(参考訳): 本稿では,自己回帰型大言語モデル(LLM)の正確な生成忠実度と拡散モデルの高速並列トークン生成を一体化する,シンプルで効率的な二重アーキテクチャフレームワークであるOrthrusを紹介する。
標準自己回帰復号のシーケンシャルな性質は、高スループット推論の基本的なボトルネックである。
拡散言語モデルは並列生成によってこの障壁を破ろうとするが、性能の大幅な低下、高いトレーニングコスト、厳密な収束保証の欠如に悩まされる。
オルトラスは、この二分法を自然に解決する。
既存のTransformerにシームレスに統合するために設計されたこのフレームワークは、軽量でトレーニング可能なモジュールで凍結したLLMを拡張し、標準の自己回帰ビューと並行して並列拡散ビューを作成する。
この統合システムでは、どちらのビューも全く同じ高忠実なキーバリュー(KV)キャッシュに対応し、オートレグレッシブヘッドはコンテキストプリフィルを実行して正確なKV表現を構築し、拡散ヘッドは並列生成を実行する。
2つのビュー間の正確なコンセンサス機構を利用することで、Orthrusは損失のない推論を保証し、最大7.8倍のスピードアップを実現し、O(1)メモリキャッシュのオーバーヘッドと最小限のパラメータの追加しかできない。
関連論文リスト
- Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding [52.69880888587866]
現在のビデオ大言語モデル(ビデオLLM)は、典型的にはエンコーダビジョンを介してフレームを符号化し、自己回帰(AR)LLMを使用して理解と生成を行う。
本稿では,言語モデル(DLM)に基づく拡散ビデオLLMであるVidLaDAを提案する。
実験によると、VidLaDAは最先端のARベースラインと競合し、DLMベースラインを上回り、MARS-Cacheは精度を損なうことなく12倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-25T15:02:01Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding [37.86179431483446]
自己回帰モデル(ARM)は、遅いシーケンシャル推論によって妨げられる。
本稿では,優れた性能と効率を実現するマスク付き拡散モデルReFusionを紹介する。
ReFusionは、2.33$timesの平均スピードアップを維持しながら、パフォーマンスギャップを強力なARMに橋渡しする。
論文 参考訳(メタデータ) (2025-12-15T17:41:19Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。