論文の概要: Swordsman: Entropy-Driven Adaptive Block Partition for Efficient Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.04399v1
- Date: Wed, 04 Feb 2026 10:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.476312
- Title: Swordsman: Entropy-Driven Adaptive Block Partition for Efficient Diffusion Language Models
- Title(参考訳): Swordsman: 効率的な拡散言語モデルのためのエントロピー駆動適応ブロック分割
- Authors: Yu Zhang, Xinchen Li, Jialei Zhou, Hongnan Ma, Zhongwei Wan, Yiwei Shi, Duoqian Miao, Qi Zhang, Longbing Cao,
- Abstract要約: Swordsmanは、拡散言語モデルのためのエントロピー駆動の適応ブロックワイドデコーディングフレームワークである。
隣接するトークン間のエントロピーシフトを特定してブロックを分割し、セマンティックまたは構文的構成境界との整合性を向上する。
トレーニングフリーのフレームワークとして、Swordsman氏は、幅広い評価で最先端のパフォーマンスを実演している。
- 参考スコア(独自算出の注目度): 40.39823804602205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Block-wise decoding effectively improves the inference speed and quality in diffusion language models (DLMs) by combining inter-block sequential denoising and intra-block parallel unmasking. However, existing block-wise decoding methods typically partition blocks in a rigid and fixed manner, which inevitably fragments complete semantic or syntactic constituents, leading to suboptimal performance. Inspired by the entropy reduction hypothesis (ERH), we recognize that constituent boundaries offer greater opportunities for uncertainty reduction, which motivates us to employ entropy analysis for identifying constituent boundaries. Therefore, we propose Swordsman, an entropy-driven adaptive block-wise decoding framework for DLMs. Swordsman adaptively partitions blocks by identifying entropy shifts between adjacent tokens to better align with semantic or syntactic constituent boundaries. In addition, Swordsman dynamically adjusts unmasking thresholds conditioned on the real-time unmasking status within a block, further improving both efficiency and stability. As a training-free framework, supported by KV Cache, Swordsman demonstrates state-of-the-art performance across extensive evaluations.
- Abstract(参考訳): ブロック単位の復号化は、ブロック間逐次復号化とブロック内並列アンマキングを組み合わせることにより、拡散言語モデル(DLM)の推論速度と品質を効果的に向上させる。
しかし、既存のブロック単位の復号法は通常、厳密で固定的な方法でブロックを分割し、必然的に完全な意味論や構文構成を断片化し、最適以下の性能をもたらす。
エントロピー還元仮説 (ERH) に着想を得て, 構成境界が不確実性低減により大きな機会をもたらすことを認識し, 構成境界の同定にエントロピー解析を用いることを動機とする。
そこで我々は,DLMのためのエントロピー駆動型適応ブロックワイドデコーディングフレームワークであるSwordsmanを提案する。
Swordsmanは、隣接するトークン間のエントロピーシフトを識別することでブロックを適応的に分割し、セマンティックまたは構文的構成境界との整合性を向上する。
さらに、Swordsmanはブロック内のリアルタイムアンマーキング状態に規定されたアンマーキング閾値を動的に調整し、効率と安定性を向上する。
KVキャッシュがサポートするトレーニングフリーのフレームワークとして、Swordsman氏は広範囲な評価で最先端のパフォーマンスを実演している。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Deferred Commitment Decoding for Diffusion Language Models with Confidence-Aware Sliding Windows [33.361153168706444]
トレーニング不要なデコード戦略として,Dederred Commitment Decoding (DCD)を提案する。
DCDは、マスクされたトークンの上に信頼性を意識したスライディングウィンドウを保持しており、十分な文脈証拠が得られるまで、高い不確実性トークンを延期しながら、早期に低不確実性トークンを解決している。
実験の結果、DCDは固定ブロックベースの拡散法に比べて平均時間で1.39%向上し、最も顕著な改善は9.0%に達した。
論文 参考訳(メタデータ) (2026-01-05T12:57:33Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size [7.442463267121892]
拡散に基づく大規模言語モデル (dLLM) は並列デコードに固有の能力で注目を集めている。
本稿では,セミARデコードにおける固定ブロックサイズの仮定に挑戦する最初の体系的な研究を提案する。
AdaBlock-dLLMは,実行中のブロックサイズを調整することで,ブロック境界とセマンティックステップを適応的に調整する,トレーニング不要のプラグイン・アンド・プレイスケジューラである。
論文 参考訳(メタデータ) (2025-09-30T15:53:56Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Improving Black-Box Generative Attacks via Generator Semantic Consistency [51.470649503929344]
ジェネレーティブアタックは テスト時に 1つのフォワードパスで 敵の例を生成する
初期ジェネレータの中間機能をEMA教師に整列させることで意味的整合性を実現する。
我々のアプローチは、ブラックボックス転送の一貫性を保ちながら、既存のジェネレーティブアタックにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-06-23T02:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。