論文の概要: Continuous Diffusion Models Can Obey Formal Syntax
- arxiv url: http://arxiv.org/abs/2602.12468v1
- Date: Thu, 12 Feb 2026 22:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.780658
- Title: Continuous Diffusion Models Can Obey Formal Syntax
- Title(参考訳): 連続拡散モデルが形式的シンタクスを損なう
- Authors: Jinwoo Kim, Taylor Berg-Kirkpatrick, Loris D'Antoni,
- Abstract要約: 拡散言語モデルは、グローバルで非因果的プロセスのため、自己回帰モデルに代わる有望な代替手段を提供する。
本稿では,正規表現を用いて表現される形式的構文制約を満たすために,連続言語モデルをステアリングするための学習自由な手法を提案する。
提案手法は,潜在状態が与えられた正規表現で受け入れられる有効な文字列に復号される確率を推定する分析スコアを構築する。
- 参考スコア(独自算出の注目度): 37.090659119764176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models offer a promising alternative to autoregressive models due to their global, non-causal generation process, but their continuous latent dynamics make discrete constraints -- e.g., the output should be a JSON file that matches a given schema -- difficult to impose. We introduce a training-free guidance method for steering continuous diffusion language models to satisfy formal syntactic constraints expressed using regular expressions. Our approach constructs an analytic score estimating the probability that a latent state decodes to a valid string accepted by a given regular expression, and uses its gradient to guide sampling, without training auxiliary classifiers. The denoising process targets the base model conditioned on syntactic validity. We implement our method in Diffinity on top of the PLAID diffusion model and evaluate it on 180 regular-expression constraints over JSON and natural-language benchmarks. Diffinity achieves 68-96\% constraint satisfaction while incurring only a small perplexity cost relative to unconstrained sampling, outperforming autoregressive constrained decoding in both constraint satisfaction and output quality.
- Abstract(参考訳): 拡散言語モデルは、グローバルで非因果生成プロセスのため、自動回帰モデルに代わる有望な代替手段を提供するが、その連続的な潜伏ダイナミクスは、個別の制約 -- 例えば、出力は、与えられたスキーマにマッチするJSONファイルでなければならない -- を課すことが困難である。
本研究では,正規表現を用いて表現される形式的構文制約を満たすために,連続拡散言語モデルをステアリングするためのトレーニングフリーガイダンス手法を提案する。
提案手法は,潜在状態が与えられた正規表現で受け入れられる有効な文字列に復号される確率を推定する分析スコアを構築し,その勾配を用いて,補助分類器を訓練することなくサンプリングを誘導する。
復調処理は、構文的妥当性に基づくベースモデルを対象としている。
本手法はPLAID拡散モデル上でDiffinityに実装し,JSONおよび自然言語ベンチマーク上で180の正規表現制約で評価する。
ディフィニティは、制約満足度と出力品質の両方において自己回帰的制約デコードより優れており、非制約サンプリングと比較して小さなパープレキシティコストしか発生せず、68~96パーセントの制約満足度を達成する。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Waste Not, Want Not; Recycled Gumbel Noise Improves Consistency in Natural Language Generation [0.5461938536945723]
本稿では,異なるプロンプト間の応答整合性を向上させる新しい復号アルゴリズムを提案する。
本手法は, セマンティックおよびスタイリスティックな整合性ベンチマークにおいて, 標準サンプリングを最大10%向上させる。
論文 参考訳(メタデータ) (2025-03-02T10:08:51Z) - Conditional [MASK] Discrete Diffusion Language Model [14.208510167132983]
Diffusion-EAGSは、条件付きマスキング言語モデルと拡散言語モデルを統合するフレームワークである。
本研究では,Diffusion-EAGSが最高の品質・多様性のトレードオフを実現し,非自己回帰テキスト生成の有効性を示す。
論文 参考訳(メタデータ) (2024-11-10T11:49:36Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。