論文の概要: DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises
- arxiv url: http://arxiv.org/abs/2302.10025v2
- Date: Wed, 1 May 2024 02:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 20:40:32.160013
- Title: DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises
- Title(参考訳): DINOISER:ノイズ制御による拡散条件系列学習
- Authors: Jiasheng Ye, Zaixiang Zheng, Yu Bao, Lihua Qian, Mingxuan Wang,
- Abstract要約: ノイズを操作することでシーケンス生成のための拡散モデルを容易にするためにDINOISERを導入する。
実験により、DINOISERは、従来の拡散に基づくシーケンス生成モデルのベースラインよりも一貫した改善を可能にすることが示された。
- 参考スコア(独自算出の注目度): 38.72460741779243
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While diffusion models have achieved great success in generating continuous signals such as images and audio, it remains elusive for diffusion models in learning discrete sequence data like natural languages. Although recent advances circumvent this challenge of discreteness by embedding discrete tokens as continuous surrogates, they still fall short of satisfactory generation quality. To understand this, we first dive deep into the denoised training protocol of diffusion-based sequence generative models and determine their three severe problems, i.e., 1) failing to learn, 2) lack of scalability, and 3) neglecting source conditions. We argue that these problems can be boiled down to the pitfall of the not completely eliminated discreteness in the embedding space, and the scale of noises is decisive herein. In this paper, we introduce DINOISER to facilitate diffusion models for sequence generation by manipulating noises. We propose to adaptively determine the range of sampled noise scales for counter-discreteness training; and encourage the proposed diffused sequence learner to leverage source conditions with amplified noise scales during inference. Experiments show that DINOISER enables consistent improvement over the baselines of previous diffusion-based sequence generative models on several conditional sequence modeling benchmarks thanks to both effective training and inference strategies. Analyses further verify that DINOISER can make better use of source conditions to govern its generative process.
- Abstract(参考訳): 拡散モデルは画像や音声などの連続的な信号を生成する上で大きな成功を収めてきたが、自然言語のような離散的なシーケンスデータを学習する際には拡散モデルが有用である。
近年の進歩は、離散トークンを連続的なサロゲートとして埋め込むことによって、この離散性の課題を回避しているが、それでも満足な生成品質には達していない。
これを理解するために、まず拡散型シーケンス生成モデルの復号化学習プロトコルを深く掘り下げて、3つの深刻な問題、すなわち3つの問題を決定する。
1) 学習に失敗する。
2)スケーラビリティの欠如、そして
3)ソース条件を無視する。
これらの問題は、埋め込み空間における完全に排除されていない離散性の落とし穴に沸騰しうると論じ、ここではノイズの規模が決定的である。
本稿では,DINOISERを導入し,ノイズの操作によるシーケンス生成のための拡散モデルを提案する。
本稿では,逆離散性学習のためのサンプル雑音尺度の範囲を適応的に決定することを提案する。
実験の結果,DINOISERは,複数の条件付きシーケンスモデリングベンチマークにおいて,従来の拡散型シーケンス生成モデルのベースラインよりも一貫した改善を実現していることがわかった。
分析は、DINOISERがその生成過程を管理するためにソース条件をよりよく利用できることをさらに検証する。
関連論文リスト
- Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Improving and Unifying Discrete&Continuous-time Discrete Denoising
Diffusion [41.03548068279262]
離散拡散のためのより正確で容易に最適なトレーニングを可能にする変分下界の数学的単純化について述べる。
本稿では, 精密かつ高速なサンプリングが可能な後方復調法と, 離散時間および連続時間離散拡散のエレガントな統一法を導出する。
論文 参考訳(メタデータ) (2024-02-06T04:42:36Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - Tackling the Generative Learning Trilemma with Denoising Diffusion GANs [20.969702008187838]
深層生成モデルは、しばしば高いサンプル品質、モードカバレッジ、高速サンプリングに同時に対処するのに苦労する。
既存のモデルでは、そのいくつかを他のモデルと交換することが多いので、私たちはこの課題を生成学習のトリレンマと呼んでいる。
マルチモーダル条件付きGANを用いて各デノナイジングステップをモデル化するデノナイジング拡散生成対向ネットワーク(デノナイジング拡散GAN)を導入する。
論文 参考訳(メタデータ) (2021-12-15T00:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。