論文の概要: DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct
Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2310.17570v1
- Date: Thu, 26 Oct 2023 16:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:57:02.304891
- Title: DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct
Speech-to-Speech Translation
- Title(参考訳): DiffS2UT: テキスト直接音声合成のための意味保存拡散モデル
- Authors: Yongxin Zhu, Zhujin Gao, Xinyuan Zhou, Zhongyi Ye, Linli Xu
- Abstract要約: 本稿では,テキスト連続表現空間における拡散前処理を適用して,新しい拡散モデルを提案する。
このようにして、拡散過程における連続音声表現空間の意味構造を保存し、連続拡散モデルと離散拡散モデルを統合する。
そこで,提案手法は,計算集約的な自己回帰ベースラインに匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 10.984745439751489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Diffusion Generative Models have achieved great success on image
generation tasks, how to efficiently and effectively incorporate them into
speech generation especially translation tasks remains a non-trivial problem.
Specifically, due to the low information density of speech data, the
transformed discrete speech unit sequence is much longer than the corresponding
text transcription, posing significant challenges to existing auto-regressive
models. Furthermore, it is not optimal to brutally apply discrete diffusion on
the speech unit sequence while disregarding the continuous space structure,
which will degrade the generation performance significantly. In this paper, we
propose a novel diffusion model by applying the diffusion forward process in
the \textit{continuous} speech representation space, while employing the
diffusion backward process in the \textit{discrete} speech unit space. In this
way, we preserve the semantic structure of the continuous speech representation
space in the diffusion process and integrate the continuous and discrete
diffusion models. We conduct extensive experiments on the textless direct
speech-to-speech translation task, where the proposed method achieves
comparable results to the computationally intensive auto-regressive baselines
(500 steps on average) with significantly fewer decoding steps (50 steps).
- Abstract(参考訳): 拡散生成モデルは画像生成タスクにおいて大きな成功を収めているが、音声生成に効果的にそれらを組み込む方法、特に翻訳タスクは、非自明な問題である。
特に、音声データの情報密度が低いため、変換された離散音声単位のシーケンスは対応するテキストの書き起こしよりもはるかに長く、既存の自己回帰モデルにとって大きな課題となっている。
さらに、連続空間構造を無視しながら、音声単位系列に離散拡散を残忍に施すことは、生成性能を著しく低下させるため最適ではない。
本稿では,<textit{discrete} 音声単位空間における拡散逆過程を用いて,<textit{continuous} 音声表現空間における拡散前処理を適用して,新しい拡散モデルを提案する。
このようにして、拡散過程における連続音声表現空間の意味構造を保存し、連続拡散モデルと離散拡散モデルを統合する。
提案手法は,計算集約型自己回帰ベースライン(平均500ステップ)と比較し,復号化ステップ(50ステップ)を有意に削減した。
関連論文リスト
- Discrete Diffusion Language Model for Long Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。
提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-25T09:55:22Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - Investigating the Design Space of Diffusion Models for Speech Enhancement [17.914763947871368]
拡散モデルは、画像生成文学において優れた性能を示す新しい生成モデルである。
従来の拡散型音声強調システムの性能は、清潔な音声信号と雑音の多い音声信号の間の進行的な変換によるものではないことを示す。
また,プレコンディショニング,トレーニング損失重み付け,SDE,サンプル処理の適切な選択により,一般的な拡散に基づく音声強調システムよりも優れることを示す。
論文 参考訳(メタデータ) (2023-12-07T15:40:55Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。
我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-15T06:33:45Z) - DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。