論文の概要: Dystruct: Dynamically Structured Diffusion Language Model Decoding via Bayesian Inference
- arxiv url: http://arxiv.org/abs/2605.09820v1
- Date: Sun, 10 May 2026 23:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.434527
- Title: Dystruct: Dynamically Structured Diffusion Language Model Decoding via Bayesian Inference
- Title(参考訳): Dystruct: ベイズ推論による動的に構造化された拡散言語モデルデコード
- Authors: Bian Sun, Kevin Zhai, Mubarak Shah, Zhenyi Wang,
- Abstract要約: 拡散言語モデル (DLM) は自己回帰モデルに代わる有望な代替品として登場した。
ほとんどの既存のDLMはデコードに先立って指定された固定生成長に依存しており、現実世界のアプリケーションでは柔軟性が制限されている。
本稿では,動的構造推論問題としてフレキシブル長生成を定式化する,非学習型ベイズ構造復号化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.12849550784653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion language models (DLMs) have recently emerged as a promising alternative to autoregressive models, primarily due to their ability to enable parallel decoding. Despite this advantage, most existing DLMs rely on a fixed generation length specified prior to decoding, which restricts their flexibility in real-world applications. While a few recent works attempt to support flexible-length generation, they typically suffer from notable limitations: some require costly retraining to accommodate variable-length outputs, while others depend solely on local confidence signals during decoding. Such local criteria fail to capture the evolving structure of the sequence, often resulting in suboptimal generation quality. In this paper, we propose a training-free, Bayesian structured decoding framework that formulates flexible-length generation as a dynamic structural inference problem. Our approach formulates flexible-length generation as a dynamic structural inference problem, jointly computing the expansion length, the block boundaries, and the decoding schedule. At each window expansion step, the method integrates local uncertainty with structural signals via a unified mechanism that supports dynamic structured generation, including both flexible block expansion and block organization, while maintaining coherence. Extensive experiments across multiple benchmarks demonstrate that our approach significantly improves generation quality and flexibility over existing fixed-length and flexible-length baselines. These results highlight the advantage of Bayesian structured decoding for diffusion language model, providing a principled and efficient solution for structured text generation.
- Abstract(参考訳): 拡散言語モデル(DLM)は、主に並列デコードを可能にする能力のために、自動回帰モデルに代わる有望な代替品として最近登場した。
この利点にもかかわらず、ほとんどの既存のDLMはデコードに先立って指定された固定された世代長に依存しており、現実世界のアプリケーションにおける柔軟性を制限している。
最近のいくつかの研究はフレキシブル長生成をサポートしようとしているが、典型的には顕著な制限に悩まされている: 可変長出力に対応するためにコストのかかる再訓練を必要とするものもあれば、復号中は局所的な信頼信号にのみ依存するものもある。
このような局所的な基準は、配列の進化する構造を捉えず、しばしば最適以下の生成品質をもたらす。
本稿では,動的構造推論問題としてフレキシブル長生成を定式化する,学習不要なベイズ構造復号化フレームワークを提案する。
提案手法は,動的構造推論問題としてフレキシブル長生成を定式化し,拡張長,ブロック境界,復号化スケジュールを共同計算する。
各ウィンドウ展開ステップにおいて、フレキシブルブロック展開とブロック構成の両方を含む動的構造化生成をサポートする統一機構により、コヒーレンスを維持しつつ、局所不確実性を構造信号と統合する。
複数のベンチマークにわたる大規模な実験により、我々のアプローチは既存の固定長およびフレキシブル長のベースラインよりも生成品質と柔軟性を著しく改善することを示した。
これらの結果は、拡散言語モデルに対するベイズ構造復号法の利点を強調し、構造化テキスト生成の原理的かつ効率的なソリューションを提供する。
関連論文リスト
- Flow of Spans: Generalizing Language Models to Dynamic Span-Vocabulary via GFlowNets [54.06320619464273]
Flow of SpanS (FOSS)は、スパンジェネレーションのための原則化されたGFlowNetsフレームワークである。
FOSSは、取得したテキストを柔軟にセグメント化することで動的スパン語彙を構築する。
特殊な報酬モデルにより、FoSSは多種多様な高品質のテキストを生成する。
論文 参考訳(メタデータ) (2026-02-11T07:17:41Z) - AdaFuse: Adaptive Ensemble Decoding with Test-Time Scaling for LLMs [46.52320938421707]
推論時のアンサンブルは、大規模な言語モデル機能を再訓練せずに組み合わせる実用的な方法を提供する。
生成時に意味的に適切な融合単位を動的に選択する適応型アンサンブルデコーディングフレームワークであるAdaFuseを提案する。
AdaFuseは一貫して強力なアンサンブルベースラインを上回り、6.88%の平均的な相対的な改善を達成している。
論文 参考訳(メタデータ) (2026-01-09T18:58:22Z) - Unlocking the Potential of Diffusion Language Models through Template Infilling [33.69224085914102]
Diffusion Language Models (DLMs) は、自動回帰言語モデルに代わる有望な代替品として登場した。
DLMの生成プロセスに適した条件付け手法であるテンプレート埋め込み(TI)を提案する。
TIは, 生成品質を維持しつつ, 効率的な高速化を実現するため, マルチトークン生成設定においてさらなる優位性を提供することを示す。
論文 参考訳(メタデータ) (2025-10-13T12:33:41Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation [13.250999667915254]
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。
ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:52:41Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。