論文の概要: CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation
- arxiv url: http://arxiv.org/abs/2505.14455v1
- Date: Tue, 20 May 2025 14:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.438341
- Title: CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation
- Title(参考訳): CtrlDiff:動的ブロック予測と制御可能な生成による大規模拡散言語モデルの構築
- Authors: Chihan Huang, Hao Tang,
- Abstract要約: 拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。
ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
- 参考スコア(独自算出の注目度): 7.250878248686215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although autoregressive models have dominated language modeling in recent years, there has been a growing interest in exploring alternative paradigms to the conventional next-token prediction framework. Diffusion-based language models have emerged as a compelling alternative due to their powerful parallel generation capabilities and inherent editability. However, these models are often constrained by fixed-length generation. A promising direction is to combine the strengths of both paradigms, segmenting sequences into blocks, modeling autoregressive dependencies across blocks while leveraging discrete diffusion to estimate the conditional distribution within each block given the preceding context. Nevertheless, their practical application is often hindered by two key limitations: rigid fixed-length outputs and a lack of flexible control mechanisms. In this work, we address the critical limitations of fixed granularity and weak controllability in current large diffusion language models. We propose CtrlDiff, a dynamic and controllable semi-autoregressive framework that adaptively determines the size of each generation block based on local semantics using reinforcement learning. Furthermore, we introduce a classifier-guided control mechanism tailored to discrete diffusion, which significantly reduces computational overhead while facilitating efficient post-hoc conditioning without retraining. Extensive experiments demonstrate that CtrlDiff sets a new standard among hybrid diffusion models, narrows the performance gap to state-of-the-art autoregressive approaches, and enables effective conditional text generation across diverse tasks.
- Abstract(参考訳): 近年、自己回帰モデルは言語モデリングを支配しているが、従来の次世代の予測フレームワークに代わるパラダイムを探求することへの関心が高まっている。
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。
しかし、これらのモデルはしばしば固定長生成によって制約される。
有望な方向は、両方のパラダイムの長所を結合し、シーケンスをブロックに分割し、ブロック間で自己回帰的依存関係をモデル化し、離散拡散を利用して、前回のコンテキストで与えられたブロック内の条件分布を推定することである。
それにもかかわらず、それらの実用的応用は、厳密な固定長出力と柔軟な制御機構の欠如という2つの重要な制限によって妨げられることが多い。
本研究では、現在の大拡散言語モデルにおける固定粒度と弱制御性の限界に対処する。
CtrlDiffは動的かつ制御可能な半自己回帰フレームワークであり、強化学習を用いた局所意味論に基づいて各生成ブロックのサイズを適応的に決定する。
さらに、離散拡散に合わせた分類器誘導制御機構を導入し、計算オーバーヘッドを大幅に低減するとともに、再訓練なしに効率的なポストホック条件付けを容易にする。
大規模な実験により、CtrlDiffはハイブリッド拡散モデルに新しい標準を設定し、パフォーマンスギャップを最先端の自己回帰的アプローチに絞り込み、多様なタスクにまたがる効果的な条件付きテキスト生成を可能にした。
関連論文リスト
- Constrained Language Generation with Discrete Diffusion Models [61.81569616239755]
本稿では,離散拡散モデルと微分可能最適化を統合し,自然言語に制約を課す新しい手法であるConstrained Discrete Diffusion (CDD)を提案する。
本手法は, 有害な内容の出現防止による毒性軽減, (ii) 形質および配列レベルの語彙的制約, (iii) 特定の性質に順応した新規分子配列生成など, 様々な自然言語制約を満たすために適用可能であることを示す。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models [15.853201399662344]
拡散言語モデルは自己回帰モデルよりも独特な利点を提供する。
確率モデリングに遅れがあり、固定長生成に制限される。
本稿では,離散化拡散モデルと自己回帰モデルとを補間するブロック拡散言語モデルについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:43:40Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
離散拡散過程を補間する一般族の理論的バックボーンを導出する。
GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。