論文の概要: A Holistic Cascade System, benchmark, and Human Evaluation Protocol for
Expressive Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2301.10606v1
- Date: Wed, 25 Jan 2023 14:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:00:30.636061
- Title: A Holistic Cascade System, benchmark, and Human Evaluation Protocol for
Expressive Speech-to-Speech Translation
- Title(参考訳): 表現型音声対音声翻訳のための包括的カスケードシステム、ベンチマークおよびヒューマン評価プロトコル
- Authors: Wen-Chin Huang, Benjamin Peloquin, Justine Kao, Changhan Wang, Hongyu
Gong, Elizabeth Salesky, Yossi Adi, Ann Lee, Peng-Jen Chen
- Abstract要約: 表現型音声音声合成(S2ST)は,翻訳精度を維持しつつ,音源音声の韻律的属性を対象音声に伝達することを目的としている。
既存のS2STの研究は限定的であり、通常は一度に1つの表現性に焦点をあてる。
そこで本稿では,S2ST表現のための包括的カスケードシステムを提案する。
- 参考スコア(独自算出の注目度): 45.47457657122893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressive speech-to-speech translation (S2ST) aims to transfer prosodic
attributes of source speech to target speech while maintaining translation
accuracy. Existing research in expressive S2ST is limited, typically focusing
on a single expressivity aspect at a time. Likewise, this research area lacks
standard evaluation protocols and well-curated benchmark datasets. In this
work, we propose a holistic cascade system for expressive S2ST, combining
multiple prosody transfer techniques previously considered only in isolation.
We curate a benchmark expressivity test set in the TV series domain and
explored a second dataset in the audiobook domain. Finally, we present a human
evaluation protocol to assess multiple expressive dimensions across speech
pairs. Experimental results indicate that bi-lingual annotators can assess the
quality of expressive preservation in S2ST systems, and the holistic modeling
approach outperforms single-aspect systems. Audio samples can be accessed
through our demo webpage:
https://facebookresearch.github.io/speech_translation/cascade_expressive_s2st.
- Abstract(参考訳): expressive speech-to-speech translation (s2st) は、翻訳精度を維持しつつ、ソース音声の韻律的属性をターゲット音声に転送することを目的としている。
既存のS2STの研究は限定的であり、通常は一度に1つの表現性に焦点をあてる。
同様に、この研究領域には、標準評価プロトコルとよく計算されたベンチマークデータセットが欠けている。
本研究では,これまで単独でしか考えられなかった複数の韻律伝達手法を組み合わせた表現型s2stのための包括的カスケードシステムを提案する。
テレビシリーズドメインのベンチマーク表現性テストセットをキュレートし,オーディオブックドメインの2番目のデータセットについて検討した。
最後に,音声対にまたがる複数の表現次元を評価するためのヒューマン評価プロトコルを提案する。
実験の結果,二言語アノテータはs2stシステムにおける表現的保存の質を評価できることがわかった。
オーディオサンプルはデモwebページからアクセスできます。 https://facebookresearch.github.io/speech_translation/cascade_expressive_s2st。
関連論文リスト
- Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。