論文の概要: Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2508.09138v1
- Date: Tue, 12 Aug 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.541317
- Title: Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
- Title(参考訳): Time is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
- Authors: Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen,
- Abstract要約: 拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
- 参考スコア(独自算出の注目度): 51.48680261034029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decoding strategies discard rich intermediate predictions in favor of the final output. Our work here reveals a critical phenomenon, temporal oscillation, where correct answers often emerge in the middle process, but are overwritten in later denoising steps. To address this issue, we introduce two complementary methods that exploit temporal consistency: 1) Temporal Self-Consistency Voting, a training-free, test-time decoding strategy that aggregates predictions across denoising steps to select the most consistent output; and 2) a post-training method termed Temporal Consistency Reinforcement, which uses Temporal Semantic Entropy (TSE), a measure of semantic stability across intermediate predictions, as a reward signal to encourage stable generations. Empirical results across multiple benchmarks demonstrate the effectiveness of our approach. Using the negative TSE reward alone, we observe a remarkable average improvement of 24.7% on the Countdown dataset over an existing dLLM. Combined with the accuracy reward, we achieve absolute gains of 2.0% on GSM8K, 4.3% on MATH500, 6.6% on SVAMP, and 25.3% on Countdown, respectively. Our findings underscore the untapped potential of temporal dynamics in dLLMs and offer two simple yet effective tools to harness them.
- Abstract(参考訳): 拡散大言語モデル (dLLMs) は反復的復号化によってテキストを生成するが、現在の復号化戦略は最終出力を優先してリッチな中間予測を捨てる。
ここでの研究は、時間的振動という重要な現象を明らかにし、正しい答えが中央のプロセスでしばしば現れるが、後続のデノベーションステップで上書きされる。
この問題に対処するために、時間的整合性を利用する2つの補完手法を導入する。
1【時間的自己整合性投票】とは、最も一貫したアウトプットを選択するために、段階的に予測を集約する訓練のない、テストタイムのデコード戦略である。
2)テンポラル・セマンティック・エントロピー(TSE: Temporal Semantic Entropy)は,時間的セマンティック・エントロピー(TSE: Temporal Semantic Entropy)とよばれる時間的整合性強化(TSE: Temporal Consistency Reinforcement)を,安定世代を奨励するための報奨信号として用いる。
複数のベンチマークにまたがる実験結果から,提案手法の有効性が示された。
負のTSE報酬のみを用いて、既存のdLLMに対してCountdownデータセットで24.7%の顕著な平均改善を観察する。
GSM8Kで2.0%、MATH500で4.3%、SVAMPで6.6%、カウントダウンで25.3%の絶対利得を得た。
以上の結果から,dLLMにおける時間的ダイナミクスの未発見の可能性を明らかにするとともに,それらを活用するためのシンプルなツールを2つ提供した。
関連論文リスト
- TLCCSP: A Scalable Framework for Enhancing Time Series Forecasting with Time-Lagged Cross-Correlations [14.152868750710203]
時系列の予測は、天気、金融、不動産の予測など、様々な領域で重要である。
本稿では,時間ラベルの相互関連配列を統合するTLCCSP(Time-Lagged Cross-Correlations-based Sequence Prediction framework)を提案する。
気象・金融・不動産時系列データセットの実験結果から,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2025-08-09T15:29:14Z) - Efficient Temporal Tokenization for Mobility Prediction with Large Language Models [7.704947355789259]
RHYTHMは、大きな言語モデル(LLM)を軌道予測子や推論子として利用するフレームワークである。
トークン表現は、凍結LDMによる迅速な埋め込みによって豊かにされ、相互依存を捕捉するモデルの能力を高める。
3つの実世界のデータセットの評価では、最新の手法と比較して精度が2.4%向上し、週末に5.0%向上し、トレーニング時間が24.6%減少している。
論文 参考訳(メタデータ) (2025-07-18T15:31:16Z) - Test-Time Scaling of Diffusion Models via Noise Trajectory Search [7.243632426715941]
我々は,デミキシングの中間段階において,極端時間と局所的なエクスプロイトをグローバルに探索する$epsilon$-greedy検索アルゴリズムを導入する。
EDMと安定拡散の実験は、クラス条件/テキスト-画像生成のための最先端スコアを明らかにする。
論文 参考訳(メタデータ) (2025-05-24T19:13:29Z) - TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation [6.047856576139978]
我々は,新しい自己教師型時系列事前学習フレームワークである textbfTimeDART を提案する。
TimeDARTは2つの強力な生成パラダイムを統合し、より伝達可能な表現を学ぶ。
時系列予測と分類のための公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-10-08T06:08:33Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Conditioned Time-Dilated Convolutions for Sound Event Detection [20.883760606514937]
本稿では,言語モデリングと同様に機能する時間分割畳み込みの条件付けのための新しいアルゴリズムを提案する。
我々は、無料で利用可能なTUT-SED Syntheticデータセットを使用し、フレームあたりの平均$textF_1$スコアとフレームあたりの平均エラー率を用いて、メソッドの性能を評価する。
論文 参考訳(メタデータ) (2020-07-10T06:05:23Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。