論文の概要: Learned Relay Representations for Forward-Thinking Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.22967v1
- Date: Thu, 21 May 2026 18:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.063529
- Title: Learned Relay Representations for Forward-Thinking Discrete Diffusion Models
- Title(参考訳): 前向きの離散拡散モデルのための学習されたリレー表現
- Authors: Benjamin Rozonoyer, Jacopo Minniti, Dhruvesh Patel, Neil Band, Avishek Joey Bose, Tim G. J. Rudner, Andrew McCallum,
- Abstract要約: 本稿では,ラウンド間のハードリセットを回避するために,Learned Relay Representations (Relay)を提案する。
Relayは、フォワードパス間で情報を渡し、時間の経過とともに切り捨てられたバックプロパゲーションを通じてトレーニングされる、差別化可能なパートークンチャネルを導入している。
Relayは最先端の拡散言語モデル(DLM)に拡張可能であり、ブロック拡散やKVキャッシングといった技術とシームレスに互換性があることを示す。
- 参考スコア(独自算出の注目度): 34.17541648016911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When Masked Diffusion Models (MDMs) generate sequences through iterative refinement, the rich internal computation over masked positions is discarded, forcing every subsequent refinement step to recompute the valuable internal information stored as model representations. To avoid a hard reset between denoising rounds, we propose Learned Relay Representations (Relay), a method that allows MDMs to be forward-thinking when denoising by explicitly learning how to propagate latent information for the benefit of future denoising steps. Relay introduces a differentiable per-token channel that passes information between forward passes and is trained via truncated backpropagation through time (BPTT). We show that this framework can be scaled to state-of-the-art Diffusion Language Models (DLMs), and is seamlessly compatible with techniques like block diffusion and KV caching. We first provide a thorough justification of the design choices in Relay on a challenging Sudoku-based planning task. We then scale Relay to Fast-dLLM v2, a state-of-the-art DLM, outperforming standard supervised finetuning on coding tasks while reducing inference latency by up to 32%. Our empirical results demonstrate that state-of-the-art DLMs can be explicitly trained to relay latent information forward across decoding steps, advancing the performance-latency Pareto frontier. We provide code for all our experiments.
- Abstract(参考訳): Masked Diffusion Models (MDM) が反復的精錬によってシーケンスを生成すると、マスクされた位置上のリッチな内部計算は破棄され、その後の精錬ステップはモデル表現として格納された貴重な内部情報を再計算せざるを得なくなる。
ラウンド間の難解なリセットを回避するため,ラーニングド・リレー表現(Learninged Relay Representations, Relay)を提案する。
Relayは、フォワードパス間で情報を伝達し、時間(BPTT)を経過したバックプロパゲーションを通じてトレーニングされる、差別化可能なパートークンチャネルを導入している。
このフレームワークは,最先端の拡散言語モデル (DLM) に拡張可能であり,ブロック拡散やKVキャッシングといった手法とシームレスに互換性があることを示す。
まずは,Relay における設計選択の徹底的な正当性について,Sudoku をベースとした計画課題について論じる。
次に、Relay to Fast-dLLM v2(最先端のDLM)をスケールし、コーディングタスクの教師付き微調整を上回り、推論遅延を最大32%削減します。
我々の実証実験の結果、最先端のDLMはデコードステップをまたいで遅延情報を転送するように明示的に訓練され、パフォーマンスレイテンシのParetoフロンティアが前進することを示した。
すべての実験にコードを提供しています。
関連論文リスト
- MemDLM: Memory-Enhanced DLM Training [56.40248490616793]
Diffusion Language Models (DLM)は、Auto-Regressive (AR)モデルよりも優れた利点を提供する。
彼らは列車の干渉ミスマッチに悩まされている。
本稿では,模擬復調処理をトレーニングに組み込んだメモリ拡張DLMを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:39:56Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。
また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文 参考訳(メタデータ) (2025-12-02T09:02:20Z) - Denoising Task Routing for Diffusion Models [19.373733104929325]
拡散モデルは、多段階の復調過程を学習することにより、非常にリアルな画像を生成する。
拡散モデルとマルチタスク学習(MTL)の間に固有のつながりがあるにもかかわらず、ニューラルネットワークの設計には未解明領域が残っている。
本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)について述べる。
論文 参考訳(メタデータ) (2023-10-11T02:23:18Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Diffusion Recommender Model [85.9640416600725]
そこで我々は,DiffRecと呼ばれる新しい拡散レコメンダモデルを提案し,その生成過程を認知的に学習する。
ユーザインタラクションにおけるパーソナライズされた情報を維持するため、DiffRecは追加のノイズを低減し、画像合成のような純粋なノイズに対するユーザのインタラクションを損なうことを避ける。
論文 参考訳(メタデータ) (2023-04-11T04:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。