論文の概要: Sink-Aware Pruning for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.17664v1
- Date: Thu, 19 Feb 2026 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.424038
- Title: Sink-Aware Pruning for Diffusion Language Models
- Title(参考訳): 拡散言語モデルのためのシンク・アウェア・プルーニング
- Authors: Aidar Myrzakhan, Tianyi Li, Bowei Guo, Shengkun Tang, Zhiqiang Shen,
- Abstract要約: Diffusion Language Models (DLMs) は反復的デノゲーションにより高い推論コストを発生させ、効率的なプルーニングを動機付けている。
我々は,DLMにおける不安定なシンクを自動的に識別しプーンする,$bf textttSink-Aware Pruningを提案する。
提案手法は, より優れた品質効率トレードオフを実現し, 整合した計算条件下でのプルーニング前の強いベースラインよりも優れる。
- 参考スコア(独自算出の注目度): 36.34233399341709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language Models (DLMs) incur high inference cost due to iterative denoising, motivating efficient pruning. Existing pruning heuristics largely inherited from autoregressive (AR) LLMs, typically preserve attention sink tokens because AR sinks serve as stable global anchors. We show that this assumption does not hold for DLMs: the attention-sink position exhibits substantially higher variance over the full generation trajectory (measured by how the dominant sink locations shift across timesteps), indicating that sinks are often transient and less structurally essential than in AR models. Based on this observation, we propose ${\bf \texttt{Sink-Aware Pruning}}$, which automatically identifies and prunes unstable sinks in DLMs (prior studies usually keep sinks for AR LLMs). Without retraining, our method achieves a better quality-efficiency trade-off and outperforms strong prior pruning baselines under matched compute. Our code is available at https://github.com/VILA-Lab/Sink-Aware-Pruning.
- Abstract(参考訳): Diffusion Language Models (DLMs) は反復的デノゲーションにより高い推論コストを発生させ、効率的なプルーニングを動機付けている。
既存のプルーニングヒューリスティックは、通常、ARシンクが安定したグローバルアンカーとして機能するため、注意シンクトークンを保存する自己回帰(AR)LLMから受け継がれている。
我々は,この仮定がDLMに当てはまらないことを示している:注意シンク位置は,フルジェネレーションの軌跡よりもかなり高いばらつきを示し(支配的なシンク位置が時間経過とともにどのように変化するかによって測定される)、シンクがARモデルよりも過渡的かつ構造的に重要でないことがしばしば示される。
本稿では,DLMにおける不安定なシンクを自動的に識別し,プルーネを検出できる${\bf \texttt{Sink-Aware Pruning}}$を提案する。
本手法は, 再学習を伴わず, 高品質かつ効率の良いトレードオフを実現し, 整合した計算条件下でのプルーニング前の強いベースラインよりも優れる。
私たちのコードはhttps://github.com/VILA-Lab/Sink-Aware-Pruning.comで公開されています。
関連論文リスト
- Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing [18.405286688847827]
Diffusion Large Language Models (dLLMs) は、非自己回帰デコードパラダイムで強力な長文処理機能を提供する。
提案するFocus-dLLMは,高精度で高精度な長文dLLM推論に適した,新しいトレーニング不要な注意スペルシフィケーションフレームワークである。
論文 参考訳(メタデータ) (2026-02-02T14:36:10Z) - d3LLM: Ultra-Fast Diffusion LLM using Pseudo-Trajectory Distillation [31.922313594074925]
拡散大言語モデル (dLLM) は自己回帰 (AR) LLM 以上の機能を提供する。
現行の手法では、通常はコインの片面のみに焦点を合わせ、効率性や性能を目標としている。
本稿では,d3LLM (Pseudo-Distilled Diffusion Large Language Model) を提案する。
論文 参考訳(メタデータ) (2026-01-12T14:25:36Z) - Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models [82.87985794856803]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
論文 参考訳(メタデータ) (2025-10-05T10:50:52Z) - SparseD: Sparse Attention for Diffusion Language Models [98.05780626106555]
拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
論文 参考訳(メタデータ) (2025-09-28T18:10:10Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Anchored Diffusion Language Model [39.17770765212062]
本稿では,アンカーネットワークを介して重要なトークン上の分布を予測する新しいフレームワークであるAnchored Diffusion Language Model (ADLM)を紹介する。
ADLMはLM1BとOpenWebTextでテストの難易度を大幅に改善し、以前のDLMよりも25.4%向上した。
また、MAUVEスコアでARモデルを上回っており、DLMがARモデルよりも優れた人間的なテキストを生成するのはこれが初めてである。
論文 参考訳(メタデータ) (2025-05-24T01:34:14Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。