論文の概要: Difformer: Empowering Diffusion Model on Embedding Space for Text
Generation
- arxiv url: http://arxiv.org/abs/2212.09412v1
- Date: Mon, 19 Dec 2022 12:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:13:58.820028
- Title: Difformer: Empowering Diffusion Model on Embedding Space for Text
Generation
- Title(参考訳): Difformer:テキスト生成のための埋め込み空間における拡散モデル
- Authors: Zhujin Gao, Junliang Guo, Xu Tan, Yongxin Zhu, Fang Zhang, Jiang Bian,
Linli Xu
- Abstract要約: 連続データ空間と埋め込み空間の違いは拡散モデルに挑戦を引き起こす。
本稿では, アンカー損失関数, 埋め込み用層正規化モジュール, ガウス雑音の正規化を含む3つの手法からなるDifformerを提案する。
その結果,Difformer は自己回帰ベースラインと競合する結果を得る一方で,埋込拡散ベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 41.2676069579214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have achieved state-of-the-art synthesis quality on visual
and audio tasks, and recent works adapt them to textual data by diffusing on
the embedding space. But the difference between the continuous data space and
the embedding space raises challenges to the diffusion model, which have not
been carefully explored. In this paper, we conduct systematic studies and
analyze the challenges threefold. Firstly, the data distribution is learnable
for embeddings, which may lead to the collapse of the loss function. Secondly,
as the norm of embedding varies between popular and rare words, adding the same
noise scale will lead to sub-optimal results. In addition, we find that noises
sampled from a standard Gaussian distribution may distract the diffusion
process. To solve the above challenges, we propose Difformer, a denoising
diffusion probabilistic model based on Transformer, which consists of three
techniques including utilizing an anchor loss function, a layer normalization
module for embeddings, and a norm factor to the Gaussian noise. All techniques
are complementary to each other and critical to boosting the model performance
together. Experiments are conducted on benchmark datasets over two seminal text
generation tasks including machine translation and text summarization. The
results show that Difformer significantly outperforms the embedding diffusion
baselines, while achieving competitive results with strong autoregressive
baselines.
- Abstract(参考訳): 拡散モデルは視覚と音声のタスクで最先端の合成品質を達成しており、最近の研究では埋め込み空間で拡散することでテキストデータに適応している。
しかし、連続データ空間と埋め込み空間の違いは、慎重に検討されていない拡散モデルへの挑戦を引き起こす。
本稿では,体系的な研究を行い,課題を3倍に分析する。
まず、データ分布は埋め込みで学習可能であり、損失関数の崩壊につながる可能性がある。
第二に、埋め込みの規範が人気語と稀語の間で異なるため、同じノイズスケールを追加すると、準最適結果につながる。
加えて、標準ガウス分布からサンプリングされたノイズは拡散過程を乱す可能性がある。
以上の課題を解決するために,Transformerに基づく拡散確率モデルであるDifformerを提案する。これは,アンカー損失関数,埋め込み用層正規化モジュール,ガウス雑音のノルム係数を含む3つの手法からなる。
すべてのテクニックは相互補完的であり、モデルのパフォーマンス向上に不可欠です。
機械翻訳とテキスト要約を含む2つのセミナルテキスト生成タスクのベンチマークデータセットで実験を行った。
その結果,Difformer は自己回帰ベースラインと競合する結果を得る一方で,埋込拡散ベースラインを著しく上回ることがわかった。
関連論文リスト
- Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Data Augmentation for Seizure Prediction with Generative Diffusion Model [26.967247641926814]
重症度予測は患者の生活改善に非常に重要である。
初期データと中間データの間の深刻な不均衡問題は、依然として大きな課題となっている。
データ拡張は、この問題を解決するための直感的な方法です。
DiffEEGと呼ばれる拡散モデルを用いた新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T05:44:53Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises [36.455363278405045]
ノイズを操作することでシーケンス生成のための拡散モデルを容易にするためにDINOISERを導入する。
実験により、DINOISERは、従来の拡散に基づくシーケンス生成モデルのベースラインよりも一貫した改善を可能にすることが示された。
論文 参考訳(メタデータ) (2023-02-20T15:14:46Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。