論文の概要: Difformer: Empowering Diffusion Model on Embedding Space for Text
Generation
- arxiv url: http://arxiv.org/abs/2212.09412v1
- Date: Mon, 19 Dec 2022 12:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:13:58.820028
- Title: Difformer: Empowering Diffusion Model on Embedding Space for Text
Generation
- Title(参考訳): Difformer:テキスト生成のための埋め込み空間における拡散モデル
- Authors: Zhujin Gao, Junliang Guo, Xu Tan, Yongxin Zhu, Fang Zhang, Jiang Bian,
Linli Xu
- Abstract要約: 連続データ空間と埋め込み空間の違いは拡散モデルに挑戦を引き起こす。
本稿では, アンカー損失関数, 埋め込み用層正規化モジュール, ガウス雑音の正規化を含む3つの手法からなるDifformerを提案する。
その結果,Difformer は自己回帰ベースラインと競合する結果を得る一方で,埋込拡散ベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 41.2676069579214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have achieved state-of-the-art synthesis quality on visual
and audio tasks, and recent works adapt them to textual data by diffusing on
the embedding space. But the difference between the continuous data space and
the embedding space raises challenges to the diffusion model, which have not
been carefully explored. In this paper, we conduct systematic studies and
analyze the challenges threefold. Firstly, the data distribution is learnable
for embeddings, which may lead to the collapse of the loss function. Secondly,
as the norm of embedding varies between popular and rare words, adding the same
noise scale will lead to sub-optimal results. In addition, we find that noises
sampled from a standard Gaussian distribution may distract the diffusion
process. To solve the above challenges, we propose Difformer, a denoising
diffusion probabilistic model based on Transformer, which consists of three
techniques including utilizing an anchor loss function, a layer normalization
module for embeddings, and a norm factor to the Gaussian noise. All techniques
are complementary to each other and critical to boosting the model performance
together. Experiments are conducted on benchmark datasets over two seminal text
generation tasks including machine translation and text summarization. The
results show that Difformer significantly outperforms the embedding diffusion
baselines, while achieving competitive results with strong autoregressive
baselines.
- Abstract(参考訳): 拡散モデルは視覚と音声のタスクで最先端の合成品質を達成しており、最近の研究では埋め込み空間で拡散することでテキストデータに適応している。
しかし、連続データ空間と埋め込み空間の違いは、慎重に検討されていない拡散モデルへの挑戦を引き起こす。
本稿では,体系的な研究を行い,課題を3倍に分析する。
まず、データ分布は埋め込みで学習可能であり、損失関数の崩壊につながる可能性がある。
第二に、埋め込みの規範が人気語と稀語の間で異なるため、同じノイズスケールを追加すると、準最適結果につながる。
加えて、標準ガウス分布からサンプリングされたノイズは拡散過程を乱す可能性がある。
以上の課題を解決するために,Transformerに基づく拡散確率モデルであるDifformerを提案する。これは,アンカー損失関数,埋め込み用層正規化モジュール,ガウス雑音のノルム係数を含む3つの手法からなる。
すべてのテクニックは相互補完的であり、モデルのパフォーマンス向上に不可欠です。
機械翻訳とテキスト要約を含む2つのセミナルテキスト生成タスクのベンチマークデータセットで実験を行った。
その結果,Difformer は自己回帰ベースラインと競合する結果を得る一方で,埋込拡散ベースラインを著しく上回ることがわかった。
関連論文リスト
- Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Seismic Data Interpolation via Denoising Diffusion Implicit Models with Coherence-corrected Resampling [7.755439545030289]
U-Netのようなディープラーニングモデルは、トレーニングとテストの欠落パターンが一致しない場合、しばしばパフォーマンスが低下する。
マルチモーダル拡散モデルに基づく新しいフレームワークを提案する。
推論フェーズでは,サンプリングステップの数を減らし,暗黙的拡散モデルを導入する。
露呈された痕跡と欠落した痕跡との一貫性と連続性を高めるために,我々は2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-07-09T16:37:47Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Two-stage Denoising Diffusion Model for Source Localization in Graph
Inverse Problems [19.57064597050846]
ソースローカライゼーションは、グラフ情報拡散の逆問題である。
本稿では,2段階最適化フレームワークであるソースローカライゼーション・デノナイズ拡散モデル(SL-Diff)を提案する。
SL-Diffは広範囲な実験で適切なサンプリング時間内に優れた予測結果が得られる。
論文 参考訳(メタデータ) (2023-04-18T09:11:09Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises [38.72460741779243]
ノイズを操作することでシーケンス生成のための拡散モデルを容易にするためにDINOISERを導入する。
実験により、DINOISERは、従来の拡散に基づくシーケンス生成モデルのベースラインよりも一貫した改善を可能にすることが示された。
論文 参考訳(メタデータ) (2023-02-20T15:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。