論文の概要: TAD: Temporal-Aware Trajectory Self-Distillation for Fast and Accurate Diffusion LLM
- arxiv url: http://arxiv.org/abs/2605.09536v1
- Date: Sun, 10 May 2026 13:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.301441
- Title: TAD: Temporal-Aware Trajectory Self-Distillation for Fast and Accurate Diffusion LLM
- Title(参考訳): TAD:高速かつ高精度な拡散LDMのための時間認識軌道自己蒸留法
- Authors: Haoyang Zhou, Li Kong, Shijie Ren, Xiting Wang, Shuang Liang, Guowei Wang, Zhenxuan Pan,
- Abstract要約: 拡散大言語モデル(dLLM)は、並列テキスト生成に有望なパラダイムを提供する。
彼らは精度のパラレルなトレードオフに直面しており、1フォワード当たりのトークンの増加は世代品質を劣化させることが多い。
既存の加速法は精度を犠牲にして速度を上げることが多い。
本稿では, 時間認識型自己蒸留フレームワークTADを提案する。
- 参考スコア(独自算出の注目度): 18.69783590125584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) offer a promising paradigm for parallel text generation, but in practice they face an accuracy-parallelism trade-off, where increasing tokens per forward (TPF) often degrades generation quality. Existing acceleration methods often gain speed at the cost of accuracy. To address this limitation, we propose TAD, a Temporal-Aware trajectory self-Distillation framework. During data construction, we condition a teacher model on both the prompt and the ground-truth response to generate decoding trajectories, recording the intermediate masked states throughout the process. Based on how many decoding steps remain before each masked token is revealed, we partition masked positions into near and distant subsets. For near tokens, we train the student with a hard cross-entropy loss using the teacher trajectory tokens as labels, encouraging confident predictions for tokens that are about to be decoded. For distant tokens, we apply a soft KL divergence loss between the teacher and student token distributions, providing softer supervision and preserving future planning knowledge. This temporal-aware partition naturally gives rise to two deployment configurations: a Quality model that prioritizes accuracy and a Speed model that favors more aggressive acceleration. Experiments show that TAD consistently improves the accuracy-parallelism trade-off. On LLaDA, it raises average accuracy from 46.2\% to 51.6\% with the Quality model and average AUP from 46.2 to 257.1 with the Speed model. Our code is available at: https://github.com/BHmingyang/TAD
- Abstract(参考訳): 拡散大言語モデル(dLLMs)は、並列テキスト生成に有望なパラダイムを提供するが、実際には、トークンの増加が生成品質を劣化させるような、正確並列性トレードオフに直面している。
既存の加速法は精度を犠牲にして速度を上げることが多い。
この制限に対処するため,時空間認識型自己蒸留フレームワークであるTADを提案する。
データ構築中、我々は、プロンプトとグラウンドトルース応答の両方に教師モデルを条件付け、デコード軌道を生成し、その過程を通して中間的なマスキング状態を記録する。
マスクされたトークンが明かされる前に、どの程度のデコードステップが残っているかに基づいて、マスクされた位置を近距離サブセットに分割する。
近いトークンに対しては,教師のトラジェクトリトークンをラベルとして用い,難易度の高いクロスエントロピー損失の学生を訓練し,復号化されるトークンの確実な予測を奨励する。
遠隔トークンに対しては,教師と学生のトークン分布にソフトKL分散損失を適用し,よりソフトな監視と今後の計画知識の保存を行う。
この時間対応のパーティションは、自然に2つのデプロイメント構成を生み出します。
実験の結果,TADは精度・並列性トレードオフを一貫して改善していることがわかった。
LLaDAでは、品質モデルでは平均精度が46.2\%から51.6\%に上昇し、スピードモデルでは平均AUPが46.2から257.1に上昇する。
私たちのコードは、https://github.com/BHmingyang/TADで利用可能です。
関連論文リスト
- d3LLM: Ultra-Fast Diffusion LLM using Pseudo-Trajectory Distillation [31.922313594074925]
拡散大言語モデル (dLLM) は自己回帰 (AR) LLM 以上の機能を提供する。
現行の手法では、通常はコインの片面のみに焦点を合わせ、効率性や性能を目標としている。
本稿では,d3LLM (Pseudo-Distilled Diffusion Large Language Model) を提案する。
論文 参考訳(メタデータ) (2026-01-12T14:25:36Z) - Teach Diffusion Language Models to Learn from Their Own Mistakes [45.68746718883178]
Masked Diffusion Language Models (DLM) は、複数のトークンを並列に生成することで、大幅な速度を達成する。
並列サンプリングアプローチでは、強い依存性エラーが発生し、生成ステップのサイズが大きくなるにつれて品質が急速に低下する。
高品質なマルチトークン生成のためのデカップリング自己補正を提案する。
論文 参考訳(メタデータ) (2026-01-10T05:04:33Z) - CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models [27.070045950001532]
CD4LMは、推論からトレーニングを分離するフレームワークである。
GSM8Kでは、CD4LMはLLaDAベースラインと5.18倍のウォールクロック速度でマッチする。
論文 参考訳(メタデータ) (2026-01-05T16:09:22Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training [58.33728862521732]
Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。
最近の治療 -- DiT の隠された特徴と非生成的教師(例えば DINO)の特徴とを一致させる表現アライメント(REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。
生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。
HASTEを紹介する
論文 参考訳(メタデータ) (2025-05-22T15:34:33Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - T4P: Test-Time Training of Trajectory Prediction via Masked Autoencoder and Actor-specific Token Memory [39.021321011792786]
軌道予測は、複数のアクター間の相互作用を考慮することを必要とする難しい問題である。
データ駆動型アプローチは、この複雑な問題に対処するために使われてきたが、テスト期間中に分散シフトの下では信頼性の低い予測に悩まされている。
本研究では,観測データから回帰損失を用いたオンライン学習手法を提案する。
提案手法は,予測精度と計算効率の両方の観点から,既存の最先端オンライン学習手法の性能を超越した手法である。
論文 参考訳(メタデータ) (2024-03-15T06:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。