論文の概要: TiDAR: Think in Diffusion, Talk in Autoregression
- arxiv url: http://arxiv.org/abs/2511.08923v1
- Date: Thu, 13 Nov 2025 01:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.303893
- Title: TiDAR: Think in Diffusion, Talk in Autoregression
- Title(参考訳): TiDAR: 拡散と自己回帰について考える
- Authors: Jingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov,
- Abstract要約: TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。
TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
- 参考スコア(独自算出の注目度): 59.94106070312094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.
- Abstract(参考訳): 拡散言語モデルは高速並列生成の可能性を保ち、一方自己回帰(AR)モデルは、言語モデリングと自然に一致する因果構造のため、通常、品質が優れている。
高いスループット、高いGPU利用、そしてARレベルの品質でシナジーを達成できるだろうか?
既存の手法はこれら2つの側面を効果的にバランスさせることに失敗し、例えば、逐次起草(投機的復号)のために弱いモデルを用いてARを優先順位付けし、より低い起草効率をもたらすか、あるいは拡散のためにある種の左から右(ARに似た)復号論理を使用するか、品質劣化に悩まされ、潜在的に並列化性を失うかのどちらかである。
我々は、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャTiDARを紹介します。
この設計では、無償のGPU計算密度を利用して、ドラフトと検証能力のバランスを保っている。
さらに、TiDARはスタンドアロンモデルとしてサービスフレンドリな(オーバーヘッドの低い)ように設計されている。
1.5Bスケール, 8Bスケールで, 生成タスク, 可能性タスク間でのTiDARのARモデル, 投機的復号化, 拡散変異を広範囲に評価した。
並列のドラフトとサンプリングに加えて、正確なKVキャッシュサポートのおかげで、TiDARは計測スループットで投機的デコーディングを上回り、DreamやLladaといった拡散モデルを効率と品質の両方で上回っている。
TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
関連論文リスト
- DFlash: Block Diffusion for Flash Speculative Decoding [11.98141750480807]
自己回帰型大規模言語モデル(LLM)は高い性能を提供するが、本質的にシーケンシャルなデコーディングを必要とする。
本稿では,並列起草のための軽量ブロック拡散モデルを用いた投機的復号化フレームワークであるDFlashを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:59:30Z) - MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation [20.14002849273559]
統一マルチモーダルモデルは、単一のフレームワーク内で理解と生成を統合することを目的としている。
本稿では,自己回帰拡散(AR-Diffusion)フレームワークであるMammothModa2(Mammoth2)を紹介する。
Mammoth2は、公開ベンチマークで強力なテキスト・ツー・イメージと命令ベースの編集性能を提供する。
論文 参考訳(メタデータ) (2025-11-23T03:25:39Z) - Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - Next Tokens Denoising for Speech Synthesis [51.320443764269726]
Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。
毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。
ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
論文 参考訳(メタデータ) (2025-07-30T15:03:36Z) - Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling [80.30976039119236]
Lumina-mGPT 2.0はスタンドアロンのデコーダのみの自己回帰モデルである。
完全にスクラッチからトレーニングされ、制限のないアーキテクチャ設計とライセンスの自由を可能にする。
それは最先端の拡散モデルと同等に生成品質を達成する。
論文 参考訳(メタデータ) (2025-07-23T17:42:13Z) - Anchored Diffusion Language Model [39.17770765212062]
本稿では,アンカーネットワークを介して重要なトークン上の分布を予測する新しいフレームワークであるAnchored Diffusion Language Model (ADLM)を紹介する。
ADLMはLM1BとOpenWebTextでテストの難易度を大幅に改善し、以前のDLMよりも25.4%向上した。
また、MAUVEスコアでARモデルを上回っており、DLMがARモデルよりも優れた人間的なテキストを生成するのはこれが初めてである。
論文 参考訳(メタデータ) (2025-05-24T01:34:14Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。