論文の概要: STDD:Spatio-Temporal Dynamics-Driven Token Refinement in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.04205v1
- Date: Sun, 07 Dec 2025 12:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.605664
- Title: STDD:Spatio-Temporal Dynamics-Driven Token Refinement in Diffusion Language Models
- Title(参考訳): STDD:拡散言語モデルにおける時空間ダイナミクス駆動型トケリファインメント
- Authors: Xinhao Sun, Maoliang Li, Zihao Zheng, Jiayu Chen, Hezhao Xu, Yun Liang, Xiang Chen,
- Abstract要約: 拡散言語モデル(DLM)は、すべてのトークン位置を並列に反復的に記述することでテキストを生成する。
本稿では,各トークンの時間変動と空間偏差を動的に検出する新しいリマキング手法を提案する。
我々のアプローチは、主要なデータセット間でのDLMの運用効率を大幅に改善し、最大8.9倍のスピードアップを実現します。
- 参考スコア(独自算出の注目度): 12.172699141988728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike autoregressive language models, diffusion language models (DLMs) generate text by iteratively denoising all token positions in parallel. At each timestep, the remasking strategy of a DLM selects low-priority tokens to defer their decoding, thereby improving both efficiency and output quality. However, mainstream remasking strategies rely on a single global confidence threshold, overlooking the temporal and spatial dynamics of individual tokens. Motivated by the redundant iterations and constrained parallelism introduced by fixed-threshold remasking, we propose a novel remasking approach that dynamically detects Temporal Variance and Spatial Deviance of each token, which reflect its convergence status and inter-token correlations. Using these signals, our method adaptively adjusts the confidence threshold for every token at every step. Empirical results show that our approach significantly improves the operational efficiency of DLMs across mainstream datasets, achieving speedups of up to 8.9 times while faithfully preserving generation quality.
- Abstract(参考訳): 自己回帰言語モデルとは異なり、拡散言語モデル(DLM)は、すべてのトークン位置を並列に反復的に記述することでテキストを生成する。
各タイミングで、DLMのリメイキング戦略は、復号化を遅らせるために低優先度トークンを選択し、効率と出力品質を両立させる。
しかし、主流のリメイキング戦略は、個々のトークンの時間的・空間的ダイナミクスを見越して、単一のグローバルな信頼しきい値に依存している。
固定閾値再マッシングによって生じる冗長な反復と制約付き並列性に動機付けられ,各トークンの時間変動と空間変化を動的に検出し,その収束状態とトークン間相関を反映する新しいリメイキング手法を提案する。
これらの信号を用いて各ステップ毎のトークンの信頼閾値を適応的に調整する。
実験の結果,本手法は主流データセット間のDLMの運用効率を大幅に向上し,生成品質を忠実に保ちながら最大8.9倍の高速化を実現していることがわかった。
関連論文リスト
- Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。
CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。
拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2025-11-26T09:49:48Z) - Beyond Static Cutoffs: One-Shot Dynamic Thresholding for Diffusion Language Models [3.4202631641965238]
One-Shot Dynamic Thresholding (OSDT)は、単一シーケンス上のしきい値を校正し、無視可能なオーバーヘッドを持つその後の入力に適用する。
この結果から,より汎用的なアルゴリズムやシステム革新の拡散復号化のために,タスクレベルの信頼署名を活用できる幅広い機会が示唆された。
論文 参考訳(メタデータ) (2025-11-03T21:30:03Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Reward-Weighted Sampling: Enhancing Non-Autoregressive Characteristics in Masked Diffusion LLMs [44.55861996331439]
仮面拡散モデル (MDMs) は、大規模言語モデリングの非自己回帰的な代替手段として有望なものである。
MDMの標準的な復号法は、各拡散ステップにおける個々のトークンの信頼度に基づいて、独立してトークンを選択する。
本稿では,反復拡散過程において大域的な信号を提供するために,Reward-Weighted Smpling (RWS)を提案する。
論文 参考訳(メタデータ) (2025-08-31T05:48:30Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [56.30231216917128]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。
各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。
FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文 参考訳(メタデータ) (2025-02-16T13:54:32Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。