論文の概要: Empowering Diffusion Models on the Embedding Space for Text Generation
- arxiv url: http://arxiv.org/abs/2212.09412v3
- Date: Mon, 22 Apr 2024 09:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 01:41:46.220325
- Title: Empowering Diffusion Models on the Embedding Space for Text Generation
- Title(参考訳): テキスト生成のための埋め込み空間上の拡散モデル
- Authors: Zhujin Gao, Junliang Guo, Xu Tan, Yongxin Zhu, Fang Zhang, Jiang Bian, Linli Xu,
- Abstract要約: 埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
- 参考スコア(独自算出の注目度): 38.664533078347304
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have achieved state-of-the-art synthesis quality on both visual and audio tasks, and recent works further adapt them to textual data by diffusing on the embedding space. In this paper, we conduct systematic studies of the optimization challenges encountered with both the embedding space and the denoising model, which have not been carefully explored. Firstly, the data distribution is learnable for embeddings, which may lead to the collapse of the embedding space and unstable training. To alleviate this problem, we propose a new objective called the anchor loss which is more efficient than previous methods. Secondly, we find the noise levels of conventional schedules are insufficient for training a desirable denoising model while introducing varying degrees of degeneration in consequence. To address this challenge, we propose a novel framework called noise rescaling. Based on the above analysis, we propose Difformer, an embedding diffusion model based on Transformer. Experiments on varieties of seminal text generation tasks show the effectiveness of the proposed methods and the superiority of Difformer over previous state-of-the-art embedding diffusion baselines.
- Abstract(参考訳): 拡散モデルは、視覚的タスクとオーディオタスクの両方において最先端の合成品質を達成し、最近の研究は、埋め込み空間を拡散することによってテキストデータにさらに適応している。
本稿では, 埋め込み空間と復調モデルの両方で直面する最適化課題について, 慎重に検討されていない系統的研究を行う。
まず、データ分布は埋め込みについて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
この問題を軽減するために,従来の手法よりも効率的なアンカー損失という新たな目的を提案する。
第二に、従来のスケジュールの騒音レベルは、望ましい復調モデルの訓練には不十分であり、結果として様々な退化の度合いがもたらされる。
この課題に対処するために、ノイズリスケーリングと呼ばれる新しいフレームワークを提案する。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
本手法の有効性と,従来の埋込拡散ベースラインよりもDifformerの方が優れていることを示す。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in
Imaging Inverse Problems [78.76955228709241]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定データに特化してデノイングネットワークを適用する。
我々は多様な画像モダリティをまたいだOOD性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Seismic Data Interpolation based on Denoising Diffusion Implicit Models
with Resampling [8.806557897730137]
そこで本稿では,再サンプリングによる暗黙的拡散モデルを提案する。
モデル推論は、既知のトレースの条件付けである拡散暗黙モデルを利用して、拡散ステップの少ない高品質な定量化を可能にする。
論文 参考訳(メタデータ) (2023-07-09T16:37:47Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Two-stage Denoising Diffusion Model for Source Localization in Graph
Inverse Problems [19.57064597050846]
ソースローカライゼーションは、グラフ情報拡散の逆問題である。
本稿では,2段階最適化フレームワークであるソースローカライゼーション・デノナイズ拡散モデル(SL-Diff)を提案する。
SL-Diffは広範囲な実験で適切なサンプリング時間内に優れた予測結果が得られる。
論文 参考訳(メタデータ) (2023-04-18T09:11:09Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises [38.72460741779243]
ノイズを操作することでシーケンス生成のための拡散モデルを容易にするためにDINOISERを導入する。
実験により、DINOISERは、従来の拡散に基づくシーケンス生成モデルのベースラインよりも一貫した改善を可能にすることが示された。
論文 参考訳(メタデータ) (2023-02-20T15:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。