論文の概要: Unveiling the Potential of Diffusion Large Language Model in Controllable Generation
- arxiv url: http://arxiv.org/abs/2507.04504v1
- Date: Sun, 06 Jul 2025 18:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.216127
- Title: Unveiling the Potential of Diffusion Large Language Model in Controllable Generation
- Title(参考訳): 制御可能生成における拡散大言語モデルの可能性
- Authors: Zhen Xiong, Yujun Cai, Zhecheng Li, Yiwei Wang,
- Abstract要約: 拡散モデルは、もともと画像生成のために開発されたもので、自己回帰型大規模言語モデル(LLM)に代わる有望な代替品として登場した。
自己回帰とマスク拡散LDM(dLLMs)を比較した理論的解析法を提案する。
textbfSelf-adaptivetextbfSchema textbfScafは、dLLMが意味的忠実さを維持し、推論を加速しながら構造化された出力を生成する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 11.181783720439563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models, originally developed for image generation, have emerged as a promising alternative to autoregressive large language models (LLMs). We present a theoretical analysis comparing autoregressive and masked diffusion LLMs, revealing that the intrinsic bidirectional attention mechanism of diffusion LLMs (dLLMs) enables superior context modeling and generation controllability. However, existing dLLM applications face significant challenges in controllable generation: the native multi-step denoising process exhibits high sensitivity to sequence length, elevated hallucination rates, and prohibitive inference costs without specialized optimizations. To address these limitations, we propose \textbf{S}elf-adaptive \textbf{S}chema \textbf{S}caffolding ($S^3$), a novel framework that enables dLLMs to generate structured outputs (e.g., JSON) while maintaining semantic fidelity and accelerating inference. Our approach injects the target schema structure into the output context, reducing unnecessary computation while improving controllability. Extensive experiments demonstrate that $S^3$ achieves substantial improvements: 65\% increase in structural adherence, 48\% enhancement in content fidelity, and 17\% reduction in hallucination rates compared to baseline. These results establish both theoretical foundations and practical pathways for deploying diffusion models in controllable text generation tasks. Code and data will be publicly released.
- Abstract(参考訳): 拡散モデルは、もともと画像生成のために開発されたもので、自己回帰型大規模言語モデル(LLM)の代替として期待できるものとして登場した。
本稿では,自己回帰とマスク拡散LLMを比較した理論的解析を行い,拡散LLM(dLLMs)の内在的双方向注意機構により,文脈モデリングと生成制御性が向上することを明らかにする。
しかし、既存のdLLMアプリケーションは、制御可能な生成において重大な課題に直面している。
これらの制限に対処するために、dLLMsがセマンティックな忠実さを維持し、推論を加速しながら構造化された出力(例えばJSON)を生成できる新しいフレームワークである \textbf{S}elf-adaptive \textbf{S}chema \textbf{S}caffolding(S^3$)を提案する。
提案手法では,対象のスキーマ構造を出力コンテキストに注入し,不要な計算を低減し,制御性を向上させる。
S^3$ は, 65 % の構造付着の増大, 48 % のコンテンツ忠実度向上, 17 % の幻覚率の低下など, 大幅な改善が達成された。
これらの結果は、制御可能なテキスト生成タスクに拡散モデルをデプロイするための理論的基礎と実践的経路の両方を確立する。
コードとデータは公開されます。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation [7.250878248686215]
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。
ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:52:41Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。
提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文 参考訳(メタデータ) (2024-12-31T08:32:15Z) - LLM as a code generator in Agile Model Driven Development [0.032771631221674334]
この研究は、これらの課題を克服するための実行可能な戦略としてモデル駆動開発(MDD)を擁護します。
我々は GPT4 をコードジェネレータとして利用する Agile Model Driven Development (AMDD) アプローチを提案する。
GPT4自動生成機能を適用すると、JADEおよびPADEフレームワークと互換性のあるJavaとPythonコードが生成される。
論文 参考訳(メタデータ) (2024-10-24T07:24:11Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Quantized Embedding Vectors for Controllable Diffusion Language Models [1.3287140837287783]
Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
論文 参考訳(メタデータ) (2024-02-15T17:02:48Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。