論文の概要: Text Diffusion with Reinforced Conditioning
- arxiv url: http://arxiv.org/abs/2402.14843v1
- Date: Mon, 19 Feb 2024 09:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:39:31.175126
- Title: Text Diffusion with Reinforced Conditioning
- Title(参考訳): 強化コンディショニングによるテキスト拡散
- Authors: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang,
Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
- Abstract要約: 本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 92.17397504834825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated exceptional capability in generating
high-quality images, videos, and audio. Due to their adaptiveness in iterative
refinement, they provide a strong potential for achieving better
non-autoregressive sequence generation. However, existing text diffusion models
still fall short in their performance due to a challenge in handling the
discreteness of language. This paper thoroughly analyzes text diffusion models
and uncovers two significant limitations: degradation of self-conditioning
during training and misalignment between training and sampling. Motivated by
our findings, we propose a novel Text Diffusion model called TREC, which
mitigates the degradation with Reinforced Conditioning and the misalignment by
Time-Aware Variance Scaling. Our extensive experiments demonstrate the
competitiveness of TREC against autoregressive, non-autoregressive, and
diffusion baselines. Moreover, qualitative analysis shows its advanced ability
to fully utilize the diffusion process in refining samples.
- Abstract(参考訳): 拡散モデルは高品質な画像、ビデオ、オーディオを生成するのに異常な能力を示した。
反復的洗練における適応性のため、より優れた非自己回帰的シーケンス生成を実現する強力なポテンシャルを提供する。
しかし、既存のテキスト拡散モデルは、言語の離散性を扱うことの難しさから、まだ性能が劣っている。
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
本研究の動機は,強化コンディショニングによる劣化を緩和し,時間認識分散スケーリングによる誤用を緩和する,trecと呼ばれる新しいテキスト拡散モデルを提案することにある。
本研究では,TRECの自己回帰的,非自己回帰的,拡散的ベースラインに対する競争性を示す。
さらに, 定性解析により, 試料の拡散過程を十分に活用する能力が得られた。
関連論文リスト
- Diffusion-TS: Interpretable Diffusion for General Time Series Generation [6.639630994040322]
Diffusion-TSは、高品質な時系列サンプルを生成する新しい拡散ベースのフレームワークである。
各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせた。
その結果,Diffusion-TSは時系列の様々な現実的解析において最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:39:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Post-training Quantization with Progressive Calibration and Activation
Relaxing for Text-to-Image Diffusion Models [52.298040414591135]
テキスト・画像拡散モデルのための学習後量子化手法を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。
我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-15T06:33:45Z) - StoRM: A Diffusion-based Stochastic Regeneration Model for Speech
Enhancement and Dereverberation [20.262426487434393]
本稿では,予測モデルによる推定値がさらなる拡散のガイドとして提供される再生手法を提案する。
提案手法は, 高い品質のサンプルを作成しながら, 発声・呼吸アーチファクトを除去するために, 予測モデルを用いていることを示す。
論文 参考訳(メタデータ) (2022-12-22T16:35:42Z) - Self-conditioned Embedding Diffusion for Text Generation [28.342735885752493]
自己条件埋め込み拡散(Self-conditioned Embedding Diffusion)は、トークンの埋め込みで動作する連続拡散機構である。
テキスト拡散モデルでは,標準自己回帰言語モデルに匹敵するサンプルを生成する。
論文 参考訳(メタデータ) (2022-11-08T13:30:27Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。