論文の概要: Empowering Diffusion Models on the Embedding Space for Text Generation
- arxiv url: http://arxiv.org/abs/2212.09412v3
- Date: Mon, 22 Apr 2024 09:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 01:41:46.220325
- Title: Empowering Diffusion Models on the Embedding Space for Text Generation
- Title(参考訳): テキスト生成のための埋め込み空間上の拡散モデル
- Authors: Zhujin Gao, Junliang Guo, Xu Tan, Yongxin Zhu, Fang Zhang, Jiang Bian, Linli Xu,
- Abstract要約: 埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
- 参考スコア(独自算出の注目度): 38.664533078347304
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have achieved state-of-the-art synthesis quality on both visual and audio tasks, and recent works further adapt them to textual data by diffusing on the embedding space. In this paper, we conduct systematic studies of the optimization challenges encountered with both the embedding space and the denoising model, which have not been carefully explored. Firstly, the data distribution is learnable for embeddings, which may lead to the collapse of the embedding space and unstable training. To alleviate this problem, we propose a new objective called the anchor loss which is more efficient than previous methods. Secondly, we find the noise levels of conventional schedules are insufficient for training a desirable denoising model while introducing varying degrees of degeneration in consequence. To address this challenge, we propose a novel framework called noise rescaling. Based on the above analysis, we propose Difformer, an embedding diffusion model based on Transformer. Experiments on varieties of seminal text generation tasks show the effectiveness of the proposed methods and the superiority of Difformer over previous state-of-the-art embedding diffusion baselines.
- Abstract(参考訳): 拡散モデルは、視覚的タスクとオーディオタスクの両方において最先端の合成品質を達成し、最近の研究は、埋め込み空間を拡散することによってテキストデータにさらに適応している。
本稿では, 埋め込み空間と復調モデルの両方で直面する最適化課題について, 慎重に検討されていない系統的研究を行う。
まず、データ分布は埋め込みについて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
この問題を軽減するために,従来の手法よりも効率的なアンカー損失という新たな目的を提案する。
第二に、従来のスケジュールの騒音レベルは、望ましい復調モデルの訓練には不十分であり、結果として様々な退化の度合いがもたらされる。
この課題に対処するために、ノイズリスケーリングと呼ばれる新しいフレームワークを提案する。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
本手法の有効性と,従来の埋込拡散ベースラインよりもDifformerの方が優れていることを示す。
関連論文リスト
- Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Seismic Data Interpolation via Denoising Diffusion Implicit Models with Coherence-corrected Resampling [7.755439545030289]
U-Netのようなディープラーニングモデルは、トレーニングとテストの欠落パターンが一致しない場合、しばしばパフォーマンスが低下する。
マルチモーダル拡散モデルに基づく新しいフレームワークを提案する。
推論フェーズでは,サンプリングステップの数を減らし,暗黙的拡散モデルを導入する。
露呈された痕跡と欠落した痕跡との一貫性と連続性を高めるために,我々は2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-07-09T16:37:47Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Two-stage Denoising Diffusion Model for Source Localization in Graph
Inverse Problems [19.57064597050846]
ソースローカライゼーションは、グラフ情報拡散の逆問題である。
本稿では,2段階最適化フレームワークであるソースローカライゼーション・デノナイズ拡散モデル(SL-Diff)を提案する。
SL-Diffは広範囲な実験で適切なサンプリング時間内に優れた予測結果が得られる。
論文 参考訳(メタデータ) (2023-04-18T09:11:09Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises [38.72460741779243]
ノイズを操作することでシーケンス生成のための拡散モデルを容易にするためにDINOISERを導入する。
実験により、DINOISERは、従来の拡散に基づくシーケンス生成モデルのベースラインよりも一貫した改善を可能にすることが示された。
論文 参考訳(メタデータ) (2023-02-20T15:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。