Fugu-MT 論文翻訳(概要): Duplex Diffusion Models Improve Speech-to-Speech Translation

論文の概要: Duplex Diffusion Models Improve Speech-to-Speech Translation

arxiv url: http://arxiv.org/abs/2305.12628v1
Date: Mon, 22 May 2023 01:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 19:06:18.370939
Title: Duplex Diffusion Models Improve Speech-to-Speech Translation
Title（参考訳）: 二重拡散モデルによる音声音声翻訳の改善
Authors: Xianchao Wu
Abstract要約: 音声から音声への翻訳は、自然に2つの方向を持つシーケンスからシーケンスまでの学習タスクである。両面に拡散確率モデルを適用した2相拡散モデルを提案する。我々のモデルは、入力と出力の端を反転させることで、可逆的な音声翻訳を可能にする。
参考スコア（独自算出の注目度）: 1.4649095013539173
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Speech-to-speech translation is a typical sequence-to-sequence learning task that naturally has two directions. How to effectively leverage bidirectional supervision signals to produce high-fidelity audio for both directions? Existing approaches either train two separate models or a multitask-learned model with low efficiency and inferior performance. In this paper, we propose a duplex diffusion model that applies diffusion probabilistic models to both sides of a reversible duplex Conformer, so that either end can simultaneously input and output a distinct language's speech. Our model enables reversible speech translation by simply flipping the input and output ends. Experiments show that our model achieves the first success of reversible speech translation with significant improvements of ASR-BLEU scores compared with a list of state-of-the-art baselines.
Abstract（参考訳）: 音声から音声への翻訳は、2つの方向を持つ典型的なシーケンスからシーケンスへの学習課題である。双方向監視信号を効果的に活用して両方向の高忠実度音声を生成するには? 既存のアプローチでは、2つの別々のモデルを訓練するか、低効率で性能が劣るマルチタスク学習モデルを訓練する。本稿では,可逆性2重共役器の両側に拡散確率モデルを適用する2重拡散モデルを提案する。我々のモデルは、入力と出力の端を反転させることで、可逆的な音声翻訳を可能にする。実験の結果,ASR-BLEUスコアを改良した可逆的音声翻訳は,最先端のベースラインと比較すると,最初の成功となることがわかった。

関連論文リスト

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文参考訳（メタデータ） (2025-06-11T02:57:22Z)
SALM-Duplex: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model [28.42203609938444]
本稿では,連続的なユーザ入力とチャネル融合を伴うエージェント出力を特徴とする,新しい2重音声合成(S2S)アーキテクチャを提案する。ユーザ入力に事前トレーニングされたストリーミングを使用することで、音声事前トレーニングを必要とせずに、第1の二重S2Sモデルを実現できる。実験結果から,提案モデルが従来の2次モデルよりも,推論,ターンテイク,バージイン能力に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-05-21T15:48:30Z)
V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文参考訳（メタデータ） (2024-11-29T05:55:20Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文参考訳（メタデータ） (2023-09-14T09:52:08Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。 LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文参考訳（メタデータ） (2023-04-23T21:05:33Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文参考訳（メタデータ） (2021-07-12T17:40:43Z)
Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。直接音声翻訳は、誤りの伝播を避けるための代替手法である。この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文参考訳（メタデータ） (2020-11-24T15:43:49Z)
Two-Way Neural Machine Translation: A Proof of Concept for Bidirectional Translation Modeling using a Two-Dimensional Grid [47.39346022004215]
本稿では,2次元グリッドを用いた一対一の双方向翻訳モデルを提案する。 2つのモデルを個別に訓練する代わりに、我々のアプローチは1つのネットワークが両方向の翻訳を共同で学習することを奨励する。
論文参考訳（メタデータ） (2020-11-24T15:42:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。