論文の概要: Compressed and Smooth Latent Space for Text Diffusion Modeling
- arxiv url: http://arxiv.org/abs/2506.21170v1
- Date: Thu, 26 Jun 2025 12:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.069266
- Title: Compressed and Smooth Latent Space for Text Diffusion Modeling
- Title(参考訳): テキスト拡散モデリングのための圧縮・平滑遅延空間
- Authors: Viacheslav Meshchaninov, Egor Chimbulatov, Alexander Shabalin, Aleksandr Abramov, Dmitry Vetrov,
- Abstract要約: テキスト生成のための新しいアプローチであるCosmosを紹介します。
我々は,トークンレベルの拡散モデルに匹敵する生成品質を維持しつつ,テキスト表現を8倍に圧縮できることを実証した。
- 参考スコア(独自算出の注目度): 75.85722502562699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive language models dominate modern text generation, yet their sequential nature introduces fundamental limitations: decoding is slow, and maintaining global coherence remains challenging. Diffusion models offer a promising alternative by enabling parallel generation and flexible control; however, their application to text generation is hindered by the high dimensionality of token-level representations. We introduce Cosmos, a novel approach to text generation that operates entirely in a compressed, smooth latent space tailored specifically for diffusion. This space is learned using an autoencoder trained simultaneously for token-level reconstruction and alignment with frozen activations from a pretrained language encoder, providing robust semantic grounding and enabling effective perturbation-based augmentations. Empirically, we demonstrate that text representations can be compressed by $8\times$ while maintaining generation quality comparable to token-level diffusion models. Furthermore, increasing the latent sequence length allows Cosmos to surpass both diffusion-based and autoregressive baselines. We evaluate Cosmos on four diverse generative tasks including story generation, question generation, summarization, and detoxification and compare it with various generative paradigms. Cosmos achieves comparable or superior generation quality while offering more than $2\times$ faster inference.
- Abstract(参考訳): 自動回帰言語モデルは現代のテキスト生成を支配しているが、そのシーケンシャルな性質は基本的な制限をもたらす。
拡散モデルは、並列生成とフレキシブルな制御を可能にすることで有望な代替手段を提供するが、それらのテキスト生成への応用はトークンレベルの表現の高次元性によって妨げられる。
テキスト生成のための新しいアプローチであるCosmosを紹介します。
この空間は、トークンレベルの再構築と事前訓練された言語エンコーダからの凍結活性化の調整のために同時に訓練されたオートエンコーダを用いて学習され、ロバストなセマンティックグラウンドティングを提供し、摂動に基づく効果的な拡張を可能にする。
経験的に、トークンレベルの拡散モデルに匹敵する生成品質を維持しながら、テキスト表現が8\times$で圧縮できることを実証する。
さらに、遅延列の長さを増大させることで、コスモスは拡散に基づくベースラインと自己回帰ベースラインの両方を超越することができる。
本研究では,ストーリー生成,質問生成,要約,デトキシフィケーションを含む4つの多種多様な生成課題についてコスモスを評価し,様々な生成パラダイムと比較する。
Cosmosは、2ドル以上の高速な推論を提供しながら、同等または優れた世代品質を実現している。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - STRICT: Stress Test of Rendering Images Containing Text [11.236527918747925]
$textbfSTRICT$は、画像内のコヒーレントで命令に沿ったテキストをレンダリングする拡散モデルの能力を強調テストするために設計されたベンチマークである。
プロプライエタリ版やオープンソース版など,いくつかの最先端モデルを評価し,長距離整合性と命令追従能力の持続的制限を明らかにする。
論文 参考訳(メタデータ) (2025-05-25T05:37:08Z) - Precise Parameter Localization for Textual Generation in Diffusion Models [7.057901456502796]
新たな拡散モデルでは、高画質のテキストを統合してフォトリアリスティックな画像を合成することができる。
注意アクティベーションパッチでは、拡散モデルのパラメータの1%未満が注意層に含まれており、画像内のテキストコンテンツの生成に影響を与えることが示されている。
テキストコンテンツ生成に責任のあるレイヤをローカライズすることの恩恵を受けるアプリケーションをいくつか紹介する。
論文 参考訳(メタデータ) (2025-02-14T06:11:23Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation [138.98095392584693]
本稿では,自己回帰拡散(AR-Diffusion)を導入し,自然言語の固有な逐次特性について考察する。
AR拡散は、右のトークンの生成が左の生成されたトークンに依存することを保証します。
様々なテキスト生成タスクに関する一連の実験において、AR-Diffusionは既存の拡散言語モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-05-16T15:10:22Z) - TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。
我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-15T06:33:45Z) - Self-conditioned Embedding Diffusion for Text Generation [28.342735885752493]
自己条件埋め込み拡散(Self-conditioned Embedding Diffusion)は、トークンの埋め込みで動作する連続拡散機構である。
テキスト拡散モデルでは,標準自己回帰言語モデルに匹敵するサンプルを生成する。
論文 参考訳(メタデータ) (2022-11-08T13:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。