論文の概要: Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone
- arxiv url: http://arxiv.org/abs/2511.15927v2
- Date: Sun, 23 Nov 2025 05:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 13:28:09.684803
- Title: Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone
- Title(参考訳): DiffuAprielでボトルネックを破る:Mambaバックボーンを用いた高出力拡散膜
- Authors: Vaibhav Singh, Oleksiy Ostapenko, Pierre-André Noël, Torsten Scholak,
- Abstract要約: 両方向マンバのバックボーン上に構築されたマスク付き拡散言語モデルであるDiffuAprielを紹介する。
この結果から, 双方向状態空間アーキテクチャは, マスク拡散LMの強力なデノイザとして機能することが示唆された。
- 参考スコア(独自算出の注目度): 6.76700377196741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based language models have recently emerged as a promising alternative to autoregressive generation, yet their reliance on Transformer backbones limits inference efficiency due to quadratic attention and KV-cache overhead. In this work, we introduce DiffuApriel, a masked diffusion language model built on a bidirectional Mamba backbone that combines the diffusion objective with linear-time sequence modeling. DiffuApriel matches the performance of Transformer-based diffusion models while achieving up to 4.4x higher inference throughput for long sequences with a 1.3B model. We further propose DiffuApriel-H, a hybrid variant that interleaves attention and mamba layers, offering up to 2.6x throughput improvement with balanced global and local context modeling. Our results demonstrate that bidirectional state-space architectures serve as strong denoisers in masked diffusion LMs, providing a practical and scalable foundation for faster, memory-efficient text generation.
- Abstract(参考訳): 拡散ベースの言語モデルは、最近自動回帰生成の有望な代替として登場したが、Transformerのバックボーンへの依存は、二次的な注意とKV-cacheオーバーヘッドによる推論効率を制限している。
本研究では,二方向マンバのバックボーン上に構築されたマスク付き拡散言語モデルであるDiffuAprielを紹介する。
DiffuAprielはTransformerベースの拡散モデルの性能と一致し、最大4.4倍高い推論スループットを1.3Bモデルで達成する。
さらに,注目層とマンバ層をインターリーブするハイブリッドなDiffuApriel-Hを提案する。
この結果から, 双方向状態空間アーキテクチャは, マスキング拡散LMの強力なデノイザとして機能し, 高速でメモリ効率の良いテキスト生成のための実用的でスケーラブルな基盤を提供することがわかった。
関連論文リスト
- Diff2Flow: Training Flow Matching Models via Diffusion Model Alignment [22.661660797545164]
拡散モデルは高忠実度出力によって生成タスクに革命をもたらしたが、フローマッチング(FM)はより高速な推論と経験的な性能向上を提供する。
この研究は、事前学習された拡散モデルからフローマッチングへの知識の伝達を効率的に行うという重要な課題に対処する。
本稿では,拡散とFMパラダイムを体系的にブリッジする新しいフレームワークであるDiff2Flowを提案し,時間ステップを再スケーリングし,補間を整列させ,拡散予測からFM互換速度場を導出する。
論文 参考訳(メタデータ) (2025-06-02T20:05:05Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - SparseDM: Toward Sparse Efficient Diffusion Models [20.783533300147866]
拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。
トランスフォーマーとUNetを用いた拡散モデルによる実験結果から,FIDを維持しながらMACを50%削減できることが判明した。
論文 参考訳(メタデータ) (2024-04-16T10:31:06Z) - Generative Fractional Diffusion Models [53.36835573822926]
我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。
実画像データを用いた評価では,GFDMはFIDが低い値で示されるように,画素幅の多様性と画質の向上を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:53:24Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。