Fugu-MT 論文翻訳(概要): Incremental Speech Synthesis For Speech-To-Speech Translation

論文の概要: Incremental Speech Synthesis For Speech-To-Speech Translation

arxiv url: http://arxiv.org/abs/2110.08214v1
Date: Fri, 15 Oct 2021 17:20:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-18 14:42:22.028746
Title: Incremental Speech Synthesis For Speech-To-Speech Translation
Title（参考訳）: 音声音声翻訳のためのインクリメンタル音声合成
Authors: Danni Liu, Changhan Wang, Hongyu Gong, Xutai Ma, Yun Tang, Juan Pino
Abstract要約: 本稿では,TSモデルの逐次合成性能の向上に焦点をあてる。プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。本稿では,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。
参考スコア（独自算出の注目度）: 23.951060578077445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In a speech-to-speech translation (S2ST) pipeline, the text-to-speech (TTS) module is an important component for delivering the translated speech to users. To enable incremental S2ST, the TTS module must be capable of synthesizing and playing utterances while its input text is still streaming in. In this work, we focus on improving the incremental synthesis performance of TTS models. With a simple data augmentation strategy based on prefixes, we are able to improve the incremental TTS quality to approach offline performance. Furthermore, we bring our incremental TTS system to the practical scenario in combination with an upstream simultaneous speech translation system, and show the gains also carry over to this use-case. In addition, we propose latency metrics tailored to S2ST applications, and investigate methods for latency reduction in this context.
Abstract（参考訳）: 音声音声変換(S2ST)パイプラインでは、テキスト音声変換(TTS)モジュールが、翻訳された音声をユーザに届ける重要なコンポーネントである。インクリメンタルS2STを有効にするには、TTSモジュールは入力テキストがまだストリーミングされている間、発話を合成して再生できなければならない。本研究では,TSモデルの逐次合成性能の向上に焦点をあてる。プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。さらに,我々のインクリメンタルTSシステムは,上流同時翻訳システムと組み合わせて現実的なシナリオに導いており,この利用事例にも利得が引き継がれていることを示す。さらに,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。

関連論文リスト

SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System [10.506722096503038]
音声合成におけるスケーラビリティと効率を向上させるために,新しい音声合成システムであるSupertonicTTSを提案する。 SupertonicTTSは3つのコンポーネントで構成されており、連続潜時表現のための音声オートエンコーダ、テキスト・トゥ・ラテント・モジュール、発話レベルの時間予測器である。
論文参考訳（メタデータ） (2025-03-29T14:59:32Z)
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文参考訳（メタデータ） (2024-06-11T14:17:12Z)
Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-10T14:33:33Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Large-Scale Streaming End-to-End Speech Translation with Neural Transducers [35.2855796745394]
本稿では,音声信号を他の言語で直接テキストに変換するために,ストリームエンドツーエンド音声翻訳(ST)モデルを提案する。 ASRとテキストベースの機械翻訳(MT)を行うカスケードSTと比較して、提案した変換器トランスデューサ(TT)ベースのSTモデルは、推論遅延を大幅に削減する。 TTベースのSTを多言語STに拡張し、複数の言語のテキストを同時に生成する。
論文参考訳（メタデータ） (2022-04-11T18:18:53Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文参考訳（メタデータ） (2022-02-16T16:12:21Z)
AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文参考訳（メタデータ） (2021-04-20T01:53:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。