論文の概要: DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation
- arxiv url: http://arxiv.org/abs/2405.13274v1
- Date: Wed, 22 May 2024 01:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:43:54.106752
- Title: DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation
- Title(参考訳): DiffNorm:非自己回帰音声音声合成のための自己監督正規化
- Authors: Weiting Tan, Jingyu Zhang, Lingfeng Shen, Daniel Khashabi, Philipp Koehn,
- Abstract要約: 非自己回帰変換器(NAT)は音声から音声への直接変換システムに適用される。
拡散に基づく正規化戦略であるDiffNormを導入し、NATモデルをトレーニングするためのデータ分散を簡単にする。
CVSSベンチマークでは,英語・スペイン語(En-Es)では+7ASR-BLEU,英語・フランス語(En-Fr)では+2ASR-BLEUが顕著に改善した。
- 参考スコア(独自算出の注目度): 29.76274107159478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-autoregressive Transformers (NATs) are recently applied in direct speech-to-speech translation systems, which convert speech across different languages without intermediate text data. Although NATs generate high-quality outputs and offer faster inference than autoregressive models, they tend to produce incoherent and repetitive results due to complex data distribution (e.g., acoustic and linguistic variations in speech). In this work, we introduce DiffNorm, a diffusion-based normalization strategy that simplifies data distributions for training NAT models. After training with a self-supervised noise estimation objective, DiffNorm constructs normalized target data by denoising synthetically corrupted speech features. Additionally, we propose to regularize NATs with classifier-free guidance, improving model robustness and translation quality by randomly dropping out source information during training. Our strategies result in a notable improvement of about +7 ASR-BLEU for English-Spanish (En-Es) and +2 ASR-BLEU for English-French (En-Fr) translations on the CVSS benchmark, while attaining over 14x speedup for En-Es and 5x speedup for En-Fr translations compared to autoregressive baselines.
- Abstract(参考訳): 非自己回帰変換器(NAT)は、最近、中間テキストデータなしで異なる言語間で音声を変換する音声から音声への直接変換システムに応用されている。
NATは、高品質な出力を生成し、自己回帰モデルよりも高速な推論を提供するが、複雑なデータ分布(例えば、音声における音響的および言語的バリエーション)のために、一貫性のない反復的な結果を生成する傾向がある。
本研究では,NATモデルをトレーニングするためのデータ分散を簡略化する拡散型正規化戦略であるDiffNormを紹介する。
DiffNormは、自己教師型雑音推定目標を用いて訓練した後、合成劣化した音声特徴を認知することで正規化対象データを構築する。
さらに,学習中のソース情報をランダムに削除することで,NATを分類不要なガイダンスで正規化し,モデルロバスト性や翻訳品質を向上させることを提案する。
CVSSベンチマークでは,英語・スペイン語(En-Es)では+7ASR-BLEU,英語・フランス語(En-Fr)翻訳では+2ASR-BLEUが,En-Esでは14倍,En-Fr翻訳では5倍に向上した。
関連論文リスト
- Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Candidate Soups: Fusing Candidate Results Improves Translation Quality
for Non-Autoregressive Translation [15.332496335303189]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルよりもはるかに高速な推論速度を達成する。
既存のNATメソッドはNATモデルの性能改善にのみフォーカスするが、完全には利用しない。
そこで我々は,高品質な翻訳を実現するための,シンプルだが効果的な手法"Candidate Soups"を提案する。
論文 参考訳(メタデータ) (2023-01-27T02:39:42Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Modeling Coverage for Non-Autoregressive Neural Machine Translation [9.173385214565451]
本稿では,トークンレベルのカバレッジ反復改良機構と文レベルのカバレッジ契約により,カバレッジ情報を直接モデル化するための新しいカバレッジNATを提案する。
WMT14 En-De および WMT16 En-Ro 翻訳タスクの実験結果から,本手法はこれらの誤りを軽減し,ベースラインシステムに対して強い改善が達成できることが示された。
論文 参考訳(メタデータ) (2021-04-24T07:33:23Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。