論文の概要: Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2508.09138v3
- Date: Mon, 06 Oct 2025 14:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.490075
- Title: Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
- Title(参考訳): Time is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
- Authors: Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen,
- Abstract要約: 拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
- 参考スコア(独自算出の注目度): 57.474294329887236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decoding strategies discard rich intermediate predictions in favor of the final output. Our work here reveals a critical phenomenon, temporal oscillation, where correct answers often emerge in the middle process, but are overwritten in later denoising steps. To address this issue, we introduce two complementary methods that exploit temporal consistency: 1) Temporal Self-Consistency Voting, a training-free, test-time decoding strategy that aggregates predictions across denoising steps to select the most consistent output; and 2) a post-training method termed Temporal Consistency Reinforcement, which uses Temporal Semantic Entropy (TSE), a measure of semantic stability across intermediate predictions, as a reward signal to encourage stable generations. Empirical results across multiple benchmarks demonstrate the effectiveness of our approach. Using the negative TSE reward alone, we observe a remarkable average improvement of 24.7% on the Countdown dataset over an existing dLLM. Combined with the accuracy reward, we achieve absolute gains of 2.0% on GSM8K, 4.3% on MATH500, 6.6% on SVAMP, and 25.3% on Countdown, respectively. Our findings underscore the untapped potential of temporal dynamics in dLLMs and offer two simple yet effective tools to harness them.
- Abstract(参考訳): 拡散大言語モデル (dLLMs) は反復的復号化によってテキストを生成するが、現在の復号化戦略は最終出力を優先してリッチな中間予測を捨てる。
ここでの研究は、時間的振動という重要な現象を明らかにし、正しい答えが中央のプロセスでしばしば現れるが、後続のデノベーションステップで上書きされる。
この問題に対処するために、時間的整合性を利用する2つの補完手法を導入する。
1【時間的自己整合性投票】とは、最も一貫したアウトプットを選択するために、段階的に予測を集約する訓練のない、テストタイムのデコード戦略である。
2)テンポラル・セマンティック・エントロピー(TSE: Temporal Semantic Entropy)は,時間的セマンティック・エントロピー(TSE: Temporal Semantic Entropy)とよばれる時間的整合性強化(TSE: Temporal Consistency Reinforcement)を,安定世代を奨励するための報奨信号として用いる。
複数のベンチマークにまたがる実験結果から,提案手法の有効性が示された。
負のTSE報酬のみを用いて、既存のdLLMに対してCountdownデータセットで24.7%の顕著な平均改善を観察する。
GSM8Kで2.0%、MATH500で4.3%、SVAMPで6.6%、カウントダウンで25.3%の絶対利得を得た。
以上の結果から,dLLMにおける時間的ダイナミクスの未発見の可能性を明らかにするとともに,それらを活用するためのシンプルなツールを2つ提供した。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Seer Self-Consistency: Advance Budget Estimation for Adaptive Test-Time Scaling [55.026048429595384]
テストタイムスケーリングは、Large Language Models (LLMs) の推論性能を向上させるが、かなりの計算コストを発生させる。
トークン効率とレイテンシを同時に向上する動的自己整合性フレームワークであるSeerSCを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:57:43Z) - SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - TLCCSP: A Scalable Framework for Enhancing Time Series Forecasting with Time-Lagged Cross-Correlations [14.152868750710203]
時系列の予測は、天気、金融、不動産の予測など、様々な領域で重要である。
本稿では,時間ラベルの相互関連配列を統合するTLCCSP(Time-Lagged Cross-Correlations-based Sequence Prediction framework)を提案する。
気象・金融・不動産時系列データセットの実験結果から,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2025-08-09T15:29:14Z) - Efficient Temporal Tokenization for Mobility Prediction with Large Language Models [7.704947355789259]
RHYTHMは、大きな言語モデル(LLM)を軌道予測子や推論子として利用するフレームワークである。
トークン表現は、凍結LDMによる迅速な埋め込みによって豊かにされ、相互依存を捕捉するモデルの能力を高める。
3つの実世界のデータセットの評価では、最新の手法と比較して精度が2.4%向上し、週末に5.0%向上し、トレーニング時間が24.6%減少している。
論文 参考訳(メタデータ) (2025-07-18T15:31:16Z) - Test-Time Scaling of Diffusion Models via Noise Trajectory Search [7.243632426715941]
我々は,デミキシングの中間段階において,極端時間と局所的なエクスプロイトをグローバルに探索する$epsilon$-greedy検索アルゴリズムを導入する。
EDMと安定拡散の実験は、クラス条件/テキスト-画像生成のための最先端スコアを明らかにする。
論文 参考訳(メタデータ) (2025-05-24T19:13:29Z) - TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation [6.047856576139978]
我々は,新しい自己教師型時系列事前学習フレームワークである textbfTimeDART を提案する。
TimeDARTは2つの強力な生成パラダイムを統合し、より伝達可能な表現を学ぶ。
時系列予測と分類のための公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-10-08T06:08:33Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Conditioned Time-Dilated Convolutions for Sound Event Detection [20.883760606514937]
本稿では,言語モデリングと同様に機能する時間分割畳み込みの条件付けのための新しいアルゴリズムを提案する。
我々は、無料で利用可能なTUT-SED Syntheticデータセットを使用し、フレームあたりの平均$textF_1$スコアとフレームあたりの平均エラー率を用いて、メソッドの性能を評価する。
論文 参考訳(メタデータ) (2020-07-10T06:05:23Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。