論文の概要: Non-Markovian Discrete Diffusion with Causal Language Models
- arxiv url: http://arxiv.org/abs/2502.09767v1
- Date: Thu, 13 Feb 2025 20:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:44.996487
- Title: Non-Markovian Discrete Diffusion with Causal Language Models
- Title(参考訳): 因果言語モデルを用いた非マルコフ離散拡散
- Authors: Yangtian Zhang, Sizhuang He, Daniel Levine, Lawrence Zhao, David Zhang, Syed A Rizvi, Emanuele Zappala, Rex Ying, David van Dijk,
- Abstract要約: CaDDiは、逐次的および時間的モデリングを統一する因果離散拡散モデルである。
CaDDiは、自然言語と生物配列のタスクにおいて、最先端の離散拡散モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 21.671397884779154
- License:
- Abstract: Discrete diffusion models have emerged as a flexible and controllable paradigm for structured sequence modeling, yet they still lag behind causal language models in expressiveness. To bridge the gap between two paradigms, we introduce CaDDi, a causal discrete diffusion model that unifies sequential and temporal modeling within a non-Markovian diffusion framework. Unlike conventional diffusion models that operate step by step with no access to prior states, CaDDi integrates the temporal trajectory, enabling more expressive and controllable generation. Our approach also treats causal language models as a special case, allowing seamless adoption of pretrained large language models (LLMs) for discrete diffusion without the need for architectural modifications. Empirically, we demonstrate that CaDDi outperforms state-of-the-art discrete diffusion models on both natural language and biological sequence tasks, narrowing the gap between diffusion-based methods and large-scale autoregressive transformers.
- Abstract(参考訳): 離散拡散モデルは、構造化シーケンスモデリングのフレキシブルで制御可能なパラダイムとして現れてきたが、表現力では因果言語モデルに遅れを取っている。
2つのパラダイム間のギャップを埋めるために,非マルコフ拡散フレームワーク内での逐次的および時間的モデリングを統一する因果離散拡散モデルであるCaDDiを導入する。
従来の拡散モデルとは異なり、CaDDiは時間軌道を統合し、より表現的で制御可能な生成を可能にする。
提案手法では,因果言語モデルを特別なケースとして扱うことで,アーキテクチャ変更を必要とせずに,離散拡散のために事前訓練された大規模言語モデル(LLM)をシームレスに採用する。
実験により, CaDDiは, 自然言語と生物配列のタスクにおいて, 最先端の離散拡散モデルより優れており, 拡散に基づく手法と大規模自己回帰変換器とのギャップを狭めていることを示す。
関連論文リスト
- Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z) - Likelihood-Based Diffusion Language Models [13.916640262862215]
自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
論文 参考訳(メタデータ) (2023-05-30T16:43:31Z) - A Survey of Diffusion Models in Natural Language Processing [11.233768932957771]
拡散モデルは、ネットワークや多様体にまたがる情報や信号の拡散を捉える。
本稿は,NLPで使用される拡散モデルの異なる定式化,その強度と限界,それらの応用について論じる。
論文 参考訳(メタデータ) (2023-05-24T03:25:32Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Continuous diffusion for categorical data [42.60475010640669]
時間空間と入力空間の両方で連続的な拡散モデルを用いて分類データをモデル化するCDCDを提案する。
いくつかの言語モデリングタスクにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2022-11-28T06:08:54Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Diffusion Models in Vision: A Survey [73.10116197883303]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。