論文の概要: Unveiling the Potential of Diffusion Large Language Model in Controllable Generation
- arxiv url: http://arxiv.org/abs/2507.04504v1
- Date: Sun, 06 Jul 2025 18:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.216127
- Title: Unveiling the Potential of Diffusion Large Language Model in Controllable Generation
- Title(参考訳): 制御可能生成における拡散大言語モデルの可能性
- Authors: Zhen Xiong, Yujun Cai, Zhecheng Li, Yiwei Wang,
- Abstract要約: 拡散モデルは、もともと画像生成のために開発されたもので、自己回帰型大規模言語モデル(LLM)に代わる有望な代替品として登場した。
自己回帰とマスク拡散LDM(dLLMs)を比較した理論的解析法を提案する。
textbfSelf-adaptivetextbfSchema textbfScafは、dLLMが意味的忠実さを維持し、推論を加速しながら構造化された出力を生成する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 11.181783720439563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models, originally developed for image generation, have emerged as a promising alternative to autoregressive large language models (LLMs). We present a theoretical analysis comparing autoregressive and masked diffusion LLMs, revealing that the intrinsic bidirectional attention mechanism of diffusion LLMs (dLLMs) enables superior context modeling and generation controllability. However, existing dLLM applications face significant challenges in controllable generation: the native multi-step denoising process exhibits high sensitivity to sequence length, elevated hallucination rates, and prohibitive inference costs without specialized optimizations. To address these limitations, we propose \textbf{S}elf-adaptive \textbf{S}chema \textbf{S}caffolding ($S^3$), a novel framework that enables dLLMs to generate structured outputs (e.g., JSON) while maintaining semantic fidelity and accelerating inference. Our approach injects the target schema structure into the output context, reducing unnecessary computation while improving controllability. Extensive experiments demonstrate that $S^3$ achieves substantial improvements: 65\% increase in structural adherence, 48\% enhancement in content fidelity, and 17\% reduction in hallucination rates compared to baseline. These results establish both theoretical foundations and practical pathways for deploying diffusion models in controllable text generation tasks. Code and data will be publicly released.
- Abstract(参考訳): 拡散モデルは、もともと画像生成のために開発されたもので、自己回帰型大規模言語モデル(LLM)の代替として期待できるものとして登場した。
本稿では,自己回帰とマスク拡散LLMを比較した理論的解析を行い,拡散LLM(dLLMs)の内在的双方向注意機構により,文脈モデリングと生成制御性が向上することを明らかにする。
しかし、既存のdLLMアプリケーションは、制御可能な生成において重大な課題に直面している。
これらの制限に対処するために、dLLMsがセマンティックな忠実さを維持し、推論を加速しながら構造化された出力(例えばJSON)を生成できる新しいフレームワークである \textbf{S}elf-adaptive \textbf{S}chema \textbf{S}caffolding(S^3$)を提案する。
提案手法では,対象のスキーマ構造を出力コンテキストに注入し,不要な計算を低減し,制御性を向上させる。
S^3$ は, 65 % の構造付着の増大, 48 % のコンテンツ忠実度向上, 17 % の幻覚率の低下など, 大幅な改善が達成された。
これらの結果は、制御可能なテキスト生成タスクに拡散モデルをデプロイするための理論的基礎と実践的経路の両方を確立する。
コードとデータは公開されます。
関連論文リスト
- FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation [7.250878248686215]
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。
ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:52:41Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Quantized Embedding Vectors for Controllable Diffusion Language Models [1.3287140837287783]
Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
論文 参考訳(メタデータ) (2024-02-15T17:02:48Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。