論文の概要: Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration
- arxiv url: http://arxiv.org/abs/2410.13201v1
- Date: Thu, 17 Oct 2024 04:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:40.269732
- Title: Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration
- Title(参考訳): Meta-DiffuB:メタ探索を用いた文脈付きシーケンス・ツー・シーケンステキスト拡散モデル
- Authors: Yun-Yen Chuang, Hung-Min Hsu, Kevin Lin, Chen-Sheng Gu, Ling Zhen Li, Ray-I Chang, Hung-yi Lee,
- Abstract要約: 本稿では,既存のS2S-拡散モデルの限界を克服するために,スケジューラ・エクスロイタS2S-拡散パラダイムを提案する。
我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。
我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
- 参考スコア(独自算出の注目度): 53.63593099509471
- License:
- Abstract: The diffusion model, a new generative modeling paradigm, has achieved significant success in generating images, audio, video, and text. It has been adapted for sequence-to-sequence text generation (Seq2Seq) through DiffuSeq, termed S2S Diffusion. Existing S2S-Diffusion models predominantly rely on fixed or hand-crafted rules to schedule noise during the diffusion and denoising processes. However, these models are limited by non-contextualized noise, which fails to fully consider the characteristics of Seq2Seq tasks. In this paper, we propose the Meta-DiffuB framework - a novel scheduler-exploiter S2S-Diffusion paradigm designed to overcome the limitations of existing S2S-Diffusion models. We employ Meta-Exploration to train an additional scheduler model dedicated to scheduling contextualized noise for each sentence. Our exploiter model, an S2S-Diffusion model, leverages the noise scheduled by our scheduler model for updating and generation. Meta-DiffuB achieves state-of-the-art performance compared to previous S2S-Diffusion models and fine-tuned pre-trained language models (PLMs) across four Seq2Seq benchmark datasets. We further investigate and visualize the impact of Meta-DiffuB's noise scheduling on the generation of sentences with varying difficulties. Additionally, our scheduler model can function as a "plug-and-play" model to enhance DiffuSeq without the need for fine-tuning during the inference stage.
- Abstract(参考訳): 新しい生成的モデリングパラダイムである拡散モデルは、画像、オーディオ、ビデオ、テキストの生成において大きな成功を収めている。
シークエンス・ツー・シークエンス・テキスト・ジェネレーション(Seq2Seq)のためにDiffuSeqを通じてS2Sディフュージョン(S2S Diffusion)と呼ばれる。
既存のS2S拡散モデルは、主に拡散および騒音発生過程においてノイズをスケジュールする固定または手作りの規則に依存している。
しかし、これらのモデルは非文脈雑音によって制限されており、Seq2Seqタスクの特性を完全に考慮できない。
本稿では,S2S-Diffusionモデルの制約を克服するために,新しいスケジューラ-エクスロイタS2S-DiffusionパラダイムであるMeta-DiffuBフレームワークを提案する。
我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。
我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
Meta-DiffuBは、以前のS2S-Diffusionモデルと4つのSeq2Seqベンチマークデータセットにわたる微調整済み言語モデル(PLM)と比較して、最先端のパフォーマンスを実現している。
さらに,メタディフBのノイズスケジューリングが,様々な難易度のある文の生成に与える影響について検討し,可視化する。
さらに,スケジューラモデルを「プラグ・アンド・プレイ」モデルとして機能させて,推論段階の微調整を必要とせずにDiffuSeqを強化する。
関連論文リスト
- Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models [12.907590808274358]
本稿では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるために,リッチコンテキスト拡散モデル(RCDM)を提案する。
RCDMは、自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。
論文 参考訳(メタデータ) (2024-07-02T17:58:07Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Unleashing the True Potential of Sequence-to-Sequence Models for
Sequence Tagging and Structure Parsing [18.441585314765632]
シーケンス・ツー・シーケンス(S2S)モデルは、様々なテキスト生成タスクにおいて顕著な成功を収めた。
本研究では,4つのコアタスクに対する包含デコーディングを用いたS2Sモデリングの体系化について述べる。
論文 参考訳(メタデータ) (2023-02-05T01:37:26Z) - DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models [15.913828295673705]
DiffuSeqは、Seq2Seq(Seq2Seq)テキスト生成タスク用に設計された拡散モデルである。
DiffuSeqは6つの確立されたベースラインよりも同等あるいはそれ以上のパフォーマンスを実現していることを示す。
理論解析により、DiffuSeqと自己回帰/非自己回帰モデルとの関係が明らかになる。
論文 参考訳(メタデータ) (2022-10-17T10:49:08Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - Robust Face Anti-Spoofing with Dual Probabilistic Modeling [49.14353429234298]
本稿では、DPM-LQ(ラベル品質認識学習)とDPM-DQ(データ品質認識学習)という2つの専用モジュールを備えたDPM(Dual Probabilistic Modeling)という統合フレームワークを提案する。
DPM-LQは、ノイズのあるセマンティックラベルの分布に過度に適合することなく、ロバストな特徴表現を生成することができる。
DPM-DQは、その品質分布に基づいてノイズデータの予測信頼度を補正することにより、推論中のFalse Reject'およびFalse Accept'からデータノイズを除去することができる。
論文 参考訳(メタデータ) (2022-04-27T03:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。