論文の概要: Preset-Voice Matching for Privacy Regulated Speech-to-Speech Translation Systems
- arxiv url: http://arxiv.org/abs/2407.13153v1
- Date: Thu, 18 Jul 2024 04:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:51:58.150067
- Title: Preset-Voice Matching for Privacy Regulated Speech-to-Speech Translation Systems
- Title(参考訳): プライバシ制御音声音声合成システムにおけるプレセット音声マッチング
- Authors: Daniel Platnick, Bishoy Abdelnour, Eamon Earl, Rahul Kumar, Zahra Rezaei, Thomas Tsangaris, Faraj Lagum,
- Abstract要約: この研究は、Preset-Voice Matching (PVM)と呼ばれる規制付きS2STフレームワークを提案する。
PVMは、まず入力音声と、ターゲット言語における類似の同意話者音声とをマッチングすることにより、S2STにおける言語間音声のクローニングを除去する。
PVMはマルチスピーカ環境下でのS2STシステム実行時間を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 3.244480000664757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been increased demand for speech-to-speech translation (S2ST) systems in industry settings. Although successfully commercialized, cloning-based S2ST systems expose their distributors to liabilities when misused by individuals and can infringe on personality rights when exploited by media organizations. This work proposes a regulated S2ST framework called Preset-Voice Matching (PVM). PVM removes cross-lingual voice cloning in S2ST by first matching the input voice to a similar prior consenting speaker voice in the target-language. With this separation, PVM avoids cloning the input speaker, ensuring PVM systems comply with regulations and reduce risk of misuse. Our results demonstrate PVM can significantly improve S2ST system run-time in multi-speaker settings and the naturalness of S2ST synthesized speech. To our knowledge, PVM is the first explicitly regulated S2ST framework leveraging similarly-matched preset-voices for dynamic S2ST tasks.
- Abstract(参考訳): 近年,産業環境における音声合成システム(S2ST)の需要が高まっている。
商業化は成功したが、クローンベースのS2STシステムは、個人によって誤用された場合、その流通業者を負債に晒し、メディア組織によって悪用された場合、人格の権利を侵害することができる。
この研究は、Preset-Voice Matching (PVM)と呼ばれる規制付きS2STフレームワークを提案する。
PVMは、まず入力音声と、ターゲット言語における類似の同意話者音声とをマッチングすることにより、S2STにおける言語間音声のクローニングを除去する。
この分離により、PVMは入力話者のクローンを回避し、PVMシステムは規則に準拠し、誤用リスクを低減する。
提案手法は,複数話者設定におけるS2STシステムの実行時間とS2ST合成音声の自然性を大幅に向上させることができることを示す。
私たちの知る限り、PVMは、動的S2STタスクに類似のマッチング済みプリセットボイスを活用する、最初に明示的に規制されたS2STフレームワークです。
関連論文リスト
- PolySinger: Singing-Voice to Singing-Voice Translation from English to Japanese [0.913127392774573]
歌声合成システムは多言語合成の障壁を克服している。
本稿では,SV2SVTの成功に何が必要なのかを判断し,SV2SVTの最初のシステムであるPolySinger(Polyglot Singer)を提案する。
論文 参考訳(メタデータ) (2024-07-19T15:21:14Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation [29.789809751108304]
ノイズロスト表現型音声音声合成(S2ST)のための自己教師型蒸留方式を用いたテキストレス音響モデルを提案する。
提案手法は雑音非依存の表現を捉えるため,雑音環境においても有資格音声を生成することができる。
論文 参考訳(メタデータ) (2024-06-04T19:22:13Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。