論文の概要: DiffuMask: Diffusion Language Model for Token-level Prompt Pruning
- arxiv url: http://arxiv.org/abs/2604.06627v1
- Date: Wed, 08 Apr 2026 03:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.316858
- Title: DiffuMask: Diffusion Language Model for Token-level Prompt Pruning
- Title(参考訳): DiffuMask: トークンレベルのプロンプトプルーニングのための拡散言語モデル
- Authors: Caleb Zheng, Jyotika Singh, Fang Tu, Weiyi Sun, Sujeeth Bharadwaj, Yassine Benajiba, Sujith Ravi, Eli Shlizerman, Dan Roth,
- Abstract要約: 大規模言語モデル(LLM)における文脈学習と思考の連鎖による推論の改善
プルーニングに基づくプロンプト圧縮は実用的な解決策を提供するが、既存の手法は計算集約的なシーケンシャルトークン除去に依存している。
階層的なショットレベルとトークンレベルのプルーニング信号を統合する拡散ベースのフレームワークであるDiffuMaskを提案する。
- 参考スコア(独自算出の注目度): 43.97675296962604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-Context Learning and Chain-of-Thought prompting improve reasoning in large language models (LLMs). These typically come at the cost of longer, more expensive prompts that may contain redundant information. Prompt compression based on pruning offers a practical solution, yet existing methods rely on sequential token removal which is computationally intensive. We present DiffuMask, a diffusion-based framework integrating hierarchical shot-level and token-level pruning signals, that enables rapid and parallel prompt pruning via iterative mask prediction. DiffuMask substantially accelerates the compression process via masking multiple tokens in each denoising step. It offers tunable control over retained content, preserving essential reasoning context and achieving up to 80\% prompt length reduction. Meanwhile, it maintains or improves accuracy across in-domain, out-of-domain, and cross-model settings. Our results show that DiffuMask provides a generalizable and controllable framework for prompt compression, facilitating faster and more reliable in-context reasoning in LLMs.
- Abstract(参考訳): In-Context LearningとChain-of-Thoughtは、大規模言語モデル(LLM)の推論を改善する。
これらは通常、冗長な情報を含む可能性のある、より長く、より高価なプロンプトのコストがかかる。
プルーニングに基づくプロンプト圧縮は実用的な解決策を提供するが、既存の手法は計算集約的なシーケンシャルトークン除去に依存している。
本稿では,階層的なショットレベルとトークンレベルのプルーニング信号を統合する拡散ベースのフレームワークであるDiffuMaskについて述べる。
DiffuMaskは、各デノナイジングステップで複数のトークンをマスキングすることで、圧縮プロセスを大幅に高速化する。
保持されたコンテンツに対して調整可能なコントロールを提供し、本質的な推論コンテキストを保持し、最大80%のプロンプト長の短縮を実現している。
一方、ドメイン内、ドメイン外、モデル間の設定で正確性を維持するか改善する。
この結果から,DiffuMaskは圧縮を高速化する汎用的かつ制御可能なフレームワークであり,LLMにおけるより高速で信頼性の高いインコンテキスト推論を容易にすることが示唆された。
関連論文リスト
- DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Window-Diffusion: Accelerating Diffusion Language Model Inference with Windowed Token Pruning and Caching [10.315266731366123]
推論のためのウィンドウベースのトークンプルーニングとキャッシュ手法を提案する。
LLaDAとDreamの実験では、一致した計算予算の下では、提案手法は最大99タイムの推論高速化を実現する。
論文 参考訳(メタデータ) (2026-01-28T07:49:20Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。