論文の概要: Non-Markovian Discrete Diffusion with Causal Language Models
- arxiv url: http://arxiv.org/abs/2502.09767v2
- Date: Tue, 27 May 2025 20:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:27.259959
- Title: Non-Markovian Discrete Diffusion with Causal Language Models
- Title(参考訳): 因果言語モデルを用いた非マルコフ離散拡散
- Authors: Yangtian Zhang, Sizhuang He, Daniel Levine, Lawrence Zhao, David Zhang, Syed A Rizvi, Emanuele Zappala, Rex Ying, David van Dijk,
- Abstract要約: CaDDiは、生成軌道全体に条件を定める離散拡散モデルである。
単一の非マルコフ変換器における逐次的(因果的)および時間的(拡散的)推論を統一することにより、CaDDiは標準因果言語モデルも特別なケースとして扱う。
- 参考スコア(独自算出の注目度): 21.671397884779154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models offer a flexible, controllable approach to structured sequence generation, yet they still lag behind causal language models in expressive power. A key limitation lies in their reliance on the Markovian assumption, which restricts each step to condition only on the current state, leading to potential uncorrectable error accumulation. In this paper, we introduce CaDDi, a discrete diffusion model that conditions on the entire generative trajectory, thereby lifting the Markov constraint and allowing the model to revisit and improve past states. By unifying sequential (causal) and temporal (diffusion) reasoning in a single non-Markovian transformer, CaDDi also treats standard causal language models as a special case and permits the direct reuse of pretrained LLM weights with no architectural changes. Empirically, CaDDi outperforms state-of-the-art discrete diffusion baselines on natural-language benchmarks, substantially narrowing the remaining gap to large autoregressive transformers.
- Abstract(参考訳): 離散拡散モデルは、構造化シーケンス生成に対する柔軟な制御可能なアプローチを提供するが、それでも表現力で因果言語モデルより遅れている。
重要な制限はマルコフの仮定への依存にあり、これは各ステップを現在の状態のみに限定し、潜在的に修正不可能なエラーの蓄積をもたらす。
本稿では, 生成軌道全体に条件を定め, マルコフ制約を解除し, 過去の状態を再検討し, 改善する離散拡散モデルCaDDiを紹介する。
単一の非マルコフ変換器における逐次的(因果的)および時間的(拡散的)推論を統一することにより、CaDDiは標準的な因果言語モデルを特別なケースとして扱い、事前訓練されたLLM重みのアーキテクチャ上の変更なしに直接再利用することを可能にする。
実証的に、CaDDiは、自然言語ベンチマークにおける最先端の離散拡散ベースラインよりも優れており、残りのギャップを大きな自己回帰変換器にかなり狭めている。
関連論文リスト
- Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models [15.853201399662344]
拡散言語モデルは自己回帰モデルよりも独特な利点を提供する。
確率モデリングに遅れがあり、固定長生成に制限される。
本稿では,離散化拡散モデルと自己回帰モデルとを補間するブロック拡散言語モデルについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:43:40Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
離散拡散過程を補間する一般族の理論的バックボーンを導出する。
GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Likelihood-Based Diffusion Language Models [13.916640262862215]
自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
論文 参考訳(メタデータ) (2023-05-30T16:43:31Z) - A Survey of Diffusion Models in Natural Language Processing [11.233768932957771]
拡散モデルは、ネットワークや多様体にまたがる情報や信号の拡散を捉える。
本稿は,NLPで使用される拡散モデルの異なる定式化,その強度と限界,それらの応用について論じる。
論文 参考訳(メタデータ) (2023-05-24T03:25:32Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Continuous diffusion for categorical data [42.60475010640669]
時間空間と入力空間の両方で連続的な拡散モデルを用いて分類データをモデル化するCDCDを提案する。
いくつかの言語モデリングタスクにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2022-11-28T06:08:54Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Diffusion Models in Vision: A Survey [73.10116197883303]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。