論文の概要: Causal Autoregressive Diffusion Language Model
- arxiv url: http://arxiv.org/abs/2601.22031v1
- Date: Thu, 29 Jan 2026 17:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.049551
- Title: Causal Autoregressive Diffusion Language Model
- Title(参考訳): 因果自己回帰拡散言語モデル
- Authors: Junhao Ruan, Bei Li, Yongjing Yin, Pengcheng Huang, Xin Chen, Jingang Wang, Xunliang Cai, Tong Xiao, JingBo Zhu,
- Abstract要約: CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
- 参考スコア(独自算出の注目度): 70.7353007255797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose Causal Autoregressive Diffusion (CARD), a novel framework that unifies the training efficiency of ARMs with the high-throughput inference of diffusion models. CARD reformulates the diffusion process within a strictly causal attention mask, enabling dense, per-token supervision in a single forward pass. To address the optimization instability of causal diffusion, we introduce a soft-tailed masking schema to preserve local context and a context-aware reweighting mechanism derived from signal-to-noise principles. This design enables dynamic parallel decoding, where the model leverages KV-caching to adaptively generate variable-length token sequences based on confidence. Empirically, CARD outperforms existing discrete diffusion baselines while reducing training latency by 3 $\times$ compared to block diffusion methods. Our results demonstrate that CARD achieves ARM-level data efficiency while unlocking the latency benefits of parallel generation, establishing a robust paradigm for next-generation efficient LLMs.
- Abstract(参考訳): 本研究では、ARMのトレーニング効率を拡散モデルの高スループット推論と統合する新しいフレームワークであるCausal Autoregressive Diffusion (CARD)を提案する。
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
因果拡散の最適化不安定性に対処するため,局所的な文脈を保存するためのソフトテールマスキングスキーマと,信号と雑音の原理から導かれるコンテキスト認識の重み付け機構を導入する。
この設計は動的並列復号化を可能にし、モデルがKVキャッシュを利用して信頼性に基づいて可変長トークン列を適応的に生成する。
CARDは、ブロック拡散法と比較して、トレーニング遅延を3$\times$に減らしながら、既存の離散拡散ベースラインを上回ります。
この結果から,CARDは並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現し,次世代LLMの堅牢なパラダイムを確立した。
関連論文リスト
- Auto-Regressive Masked Diffusion Models [9.239507801466322]
仮面拡散モデル (MDM) は言語モデリングの有望なアプローチとして登場している。
自動回帰モデル(ARM)と比較してパフォーマンスのギャップがあり、より多くのトレーニングイテレーションが必要です。
本稿では,自己回帰型マスケッド拡散モデルを提案する。これは,自己回帰型モデルのトレーニング効率と,拡散型モデルの並列生成能力を統一するものである。
論文 参考訳(メタデータ) (2026-01-23T18:42:30Z) - SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Efficient Diffusion Training through Parallelization with Truncated Karhunen-Loève Expansion [5.770347328961063]
拡散認知モデルは、トレーニング中に緩やかな収束に苦しむ。
本稿では,トレーニングとサンプリングのための新しい前向きプロセスを提案する。
本手法はベースライン拡散モデルより有意に優れている。
論文 参考訳(メタデータ) (2025-03-22T05:34:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。