論文の概要: Flexible-length Text Infilling for Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.13579v1
- Date: Mon, 16 Jun 2025 15:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.781321
- Title: Flexible-length Text Infilling for Discrete Diffusion Models
- Title(参考訳): 離散拡散モデルのためのフレキシブル長テキスト入力
- Authors: Andrew Zhang, Anushka Sivakumar, Chiawei Tang, Chris Thomas,
- Abstract要約: この課題を克服するための最初の離散拡散モデルである textbfDDOT (textbfDiscrete textbfDiffusion with textbfOptimal textbfTransport Position Coupling) を導入する。
DDOTは、新しいサンプルレベル最適輸送(OT)結合を用いて、トークン値とトークン位置を共同で識別する。
One-Billion-WordやYelpといったテキスト入力ベンチマークの実験では、DDOTが単純な拡散ベースラインより優れていることが示されている。
- 参考スコア(独自算出の注目度): 0.8595835526753521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models are a new class of text generators that offer advantages such as bidirectional context use, parallelizable generation, and flexible prompting compared to autoregressive models. However, a critical limitation of discrete diffusion models is their inability to perform flexible-length or flexible-position text infilling without access to ground-truth positional data. We introduce \textbf{DDOT} (\textbf{D}iscrete \textbf{D}iffusion with \textbf{O}ptimal \textbf{T}ransport Position Coupling), the first discrete diffusion model to overcome this challenge. DDOT jointly denoises token values and token positions, employing a novel sample-level Optimal Transport (OT) coupling. This coupling preserves relative token ordering while dynamically adjusting the positions and length of infilled segments, a capability previously missing in text diffusion. Our method is orthogonal to existing discrete text diffusion methods and is compatible with various pretrained text denoisers. Extensive experiments on text infilling benchmarks such as One-Billion-Word and Yelp demonstrate that DDOT outperforms naive diffusion baselines. Furthermore, DDOT achieves performance on par with state-of-the-art non-autoregressive models and enables significant improvements in training efficiency and flexibility.
- Abstract(参考訳): 離散拡散モデルは、双方向コンテキストの使用、並列化可能な生成、自動回帰モデルと比較して柔軟なプロンプトといった利点を提供する新しいテキストジェネレータのクラスである。
しかし, 離散拡散モデルの限界は, 地平線の位置データにアクセスできることなく, フレキシブル長あるいはフレキシブルポジションのテキスト入力を行うことができないことである。
この課題を克服するための最初の離散拡散モデルである \textbf{DDOT} (\textbf{D}iscrete \textbf{D}iffusion with \textbf{O}ptimal \textbf{T}ransport Position Coupling) を導入する。
DDOTは、新しいサンプルレベル最適輸送(OT)結合を用いて、トークン値とトークン位置を共同で識別する。
この結合は、テキスト拡散に欠けている機能である埋め込んだセグメントの位置と長さを動的に調整しながら、相対トークンの順序を保っている。
本手法は,既存の離散テキスト拡散法と直交し,事前学習したテキストデノワと互換性がある。
One-Billion-WordやYelpといったテキストインフィルベンチマークに関する大規模な実験は、DDOTが単純な拡散ベースラインより優れていることを実証している。
さらに、DDOTは最先端の非自己回帰モデルと同等のパフォーマンスを実現し、トレーニング効率と柔軟性を大幅に改善する。
関連論文リスト
- Unifying Continuous and Discrete Text Diffusion with Non-simultaneous Diffusion Processes [9.29387855908007]
NeoDiffは、離散的アプローチと連続的アプローチの両方の長所を統合する、新しい拡散モデルである。
我々のアプローチは、テキスト生成のためのより原理的で効果的なフレームワークを提供する、離散的かつ連続的な拡散モデルの理論を統一する。
論文 参考訳(メタデータ) (2025-05-28T09:28:52Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Segment-Level Diffusion: A Framework for Controllable Long-Form Generation with Diffusion Language Models [12.446047799880587]
トークンレベルの拡散は、単語順依存を明示的にモデル化しない。
パッセージレベルの拡散は、長文の堅牢な表現を学習するのに苦労する。
拡散に基づくテキスト生成を促進するフレームワークであるSegment-Level Diffusionを提案する。
論文 参考訳(メタデータ) (2024-12-15T22:47:44Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。
我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-15T06:33:45Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。