論文の概要: Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion
- arxiv url: http://arxiv.org/abs/2601.04056v1
- Date: Wed, 07 Jan 2026 16:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.683223
- Title: Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion
- Title(参考訳): 離散連続ギャップのブリッジ:結合マニフォールドディスク吸収拡散による統一マルチモーダル生成
- Authors: Yuanfeng Xu, Yuhao Chen, Liang Lin, Guangrun Wang,
- Abstract要約: 離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 60.186310080523135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The bifurcation of generative modeling into autoregressive approaches for discrete data (text) and diffusion approaches for continuous data (images) hinders the development of truly unified multimodal systems. While Masked Language Models (MLMs) offer efficient bidirectional context, they traditionally lack the generative fidelity of autoregressive models and the semantic continuity of diffusion models. Furthermore, extending masked generation to multimodal settings introduces severe alignment challenges and training instability. In this work, we propose \textbf{CoM-DAD} (\textbf{Co}upled \textbf{M}anifold \textbf{D}iscrete \textbf{A}bsorbing \textbf{D}iffusion), a novel probabilistic framework that reformulates multimodal generation as a hierarchical dual-process. CoM-DAD decouples high-level semantic planning from low-level token synthesis. First, we model the semantic manifold via a continuous latent diffusion process; second, we treat token generation as a discrete absorbing diffusion process, regulated by a \textbf{Variable-Rate Noise Schedule}, conditioned on these evolving semantic priors. Crucially, we introduce a \textbf{Stochastic Mixed-Modal Transport} strategy that aligns disparate modalities without requiring heavy contrastive dual-encoders. Our method demonstrates superior stability over standard masked modeling, establishing a new paradigm for scalable, unified text-image generation.
- Abstract(参考訳): 離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
Masked Language Models (MLM) は効果的な双方向コンテキストを提供するが、伝統的に自己回帰モデルの生成的忠実さと拡散モデルの意味的連続性は欠落している。
さらに、マスク付き生成をマルチモーダル設定に拡張することで、厳しいアライメントの課題とトレーニング不安定がもたらされる。
本研究では,マルチモーダル生成を階層的デュアルプロセスとして再構成する新しい確率的フレームワークである,textbf{CoM-DAD} (\textbf{Co}upled \textbf{M}anifold \textbf{D}iscrete \textbf{A}bsorbing \textbf{D}iffusion)を提案する。
CoM-DADは低レベルのトークン合成から高レベルのセマンティックプランニングを分離する。
まず、連続的な潜伏拡散過程を通して意味多様体をモデル化し、第2に、トークン生成を、これらの進化するセマンティック先行条件を条件に、textbf{Variable-Rate Noise Schedule} によって規制された離散吸収拡散過程として扱う。
重要な点として、重対照的な二重エンコーダを必要とせず、異なるモダリティを整合させる「textbf{Stochastic Mixed-Modal Transport}」戦略を導入する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
関連論文リスト
- Latent Discrete Diffusion Models [18.979326092796896]
言語および他の分類データに対する離散拡散について検討する。
EmphLatent Discrete Diffusion Models (LDDM)を提案する。
i)トークンと潜伏剤の完全結合分解を行うFUJI-LDDMと(ii)シークエントを逐次分解するSEQ-LDDMの2つのインスタンスを提案する。
どちらの変種に対しても、ELBOスタイルの目的を導出し、ディファソインモデリングに適さない情報的潜伏者を学習するための設計選択について議論する。
論文 参考訳(メタデータ) (2025-10-20T21:26:52Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - Unifying Continuous and Discrete Text Diffusion with Non-simultaneous Diffusion Processes [9.29387855908007]
NeoDiffは、離散的アプローチと連続的アプローチの両方の長所を統合する、新しい拡散モデルである。
我々のアプローチは、テキスト生成のためのより原理的で効果的なフレームワークを提供する、離散的かつ連続的な拡散モデルの理論を統一する。
論文 参考訳(メタデータ) (2025-05-28T09:28:52Z) - Unifying Autoregressive and Diffusion-Based Sequence Generation [3.1853022872760186]
拡散に基づくシーケンス生成モデルに対して,自己回帰型言語モデルで行を曖昧にする重要な拡張を提示する。
個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。
第二に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文 参考訳(メタデータ) (2025-04-08T20:32:10Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。
本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:28:19Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。