論文の概要: Efficient Long-Context Modeling in Diffusion Language Models via Block Approximate Sparse Attention
- arxiv url: http://arxiv.org/abs/2605.19726v1
- Date: Tue, 19 May 2026 12:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.312459
- Title: Efficient Long-Context Modeling in Diffusion Language Models via Block Approximate Sparse Attention
- Title(参考訳): ブロック近似スパース注意による拡散言語モデルの効率的な長期モデリング
- Authors: Wenhu Zhang, Yiming Wu, Huanyu Wang, Yaoyang Liu, Huanzhang Dou, Senqiao Yang, Sitong Wu, Hanbin Zhao, Jiaya Jia,
- Abstract要約: Diffusion Language Models (DLM) は、グローバルコヒーレント、双方向、および制御可能なテキスト生成を可能にする。
既存の多くのブロックスパースアテンション手法は、高分解能アテンション空間上の固定サンプリングパターンによってブロックを選択する。
本稿では,ブロックワイド事前サンプリング操作によるBA-Att(Block Approximate Sparse Attention framework)を提案する。
- 参考スコア(独自算出の注目度): 58.484607892210015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Language Models (DLMs) enable globally coherent, bidirectional, and controllable text generation, offering advantages over traditional autoregressive LLMs, while scaling to ultra-long sequences remains costly. Many existing block-sparse attention methods select blocks by fixed sampling patterns over the high-resolution attention space, such as tail regions or anti-diagonal stripes. Such prior-driven sampling can miss salient tokens and introduce instability under distribution shifts. In this paper, we propose the Block Approximate Sparse Attention framework (BA-Att) with block-wise pre-downsampled operation, which identifies informative regions within a compact downsampled space, avoiding reliance on brittle positional priors. To analyze its theoretical behavior, we define an oracle post-downsample attention map and formalize the approximation error between pre- and post-downsample schemes. Based on this insight, we introduce a lightweight norm-sorting module and a covariance-compensated correction that approximates full covariance using diagonal QK variances, reducing computational complexity. Extensive experiments show that our operator achieves up to 6.95x acceleration over FlashAttention in attention computation, and maintains near full-attention performance at 50% sparsity across language models, multimodal language models, and video generation models, demonstrating strong efficiency and generalization.
- Abstract(参考訳): 拡散言語モデル (DLM) は、世界規模で一貫性があり双方向で制御可能なテキスト生成を可能にする。
既存の多くのブロックスパースアテンション手法は、テール領域や反対角線のような高分解能アテンション空間上の固定サンプリングパターンによってブロックを選択する。
このような事前駆動サンプリングは、有能なトークンを見逃し、分散シフトの下で不安定を導入する可能性がある。
本稿では,コンパクトなダウンサンプル空間内の情報領域を識別するブロックワイド事前サンプリング操作を用いたブロック近似スパースアテンションフレームワーク(BA-Att)を提案する。
その理論的挙動を解析するために、オラクルのポストダウンサンプルアテンションマップを定義し、プレダウンサンプルスキームとポストダウンサンプルスキームの近似誤差を定式化する。
この知見に基づいて,対角QK分散を用いた完全共分散を近似し,計算複雑性を低減させる,軽量なノルムソートモジュールと共分散補償補正を導入する。
実験の結果,FlashAttentionよりも最大6.95倍の高速化を実現し,言語モデル,マルチモーダル言語モデル,ビデオ生成モデル間で50%の間隔でフルアテンション性能を維持し,高い効率と一般化を示した。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size [7.442463267121892]
拡散に基づく大規模言語モデル (dLLM) は並列デコードに固有の能力で注目を集めている。
本稿では,セミARデコードにおける固定ブロックサイズの仮定に挑戦する最初の体系的な研究を提案する。
AdaBlock-dLLMは,実行中のブロックサイズを調整することで,ブロック境界とセマンティックステップを適応的に調整する,トレーニング不要のプラグイン・アンド・プレイスケジューラである。
論文 参考訳(メタデータ) (2025-09-30T15:53:56Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation [13.250999667915254]
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。
ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:52:41Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Controlled LLM Decoding via Discrete Auto-regressive Biasing [9.843359827321194]
制御されたテキスト生成は、大きな言語モデルの出力に対してユーザ定義の制約を強制することができる。
離散テキスト領域で完全に動作しながら勾配を利用する制御復号アルゴリズムである離散自己回帰バイアス法を提案する。
提案手法は,計算コストの低減を図るとともに,制約満足度を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-06T00:14:43Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。