論文の概要: Quantifying Source Speaker Leakage in One-to-One Voice Conversion
- arxiv url: http://arxiv.org/abs/2504.15822v1
- Date: Tue, 22 Apr 2025 12:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:39:23.282835
- Title: Quantifying Source Speaker Leakage in One-to-One Voice Conversion
- Title(参考訳): 1対1音声変換における音源漏洩の定量化
- Authors: Scott Wellington, Xuechen Liu, Junichi Yamagishi,
- Abstract要約: 1対1の音声変換の場合、音源話者の同一性に対する信頼度を定量化できることを示す。
- 参考スコア(独自算出の注目度): 32.92816245915008
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using a multi-accented corpus of parallel utterances for use with commercial speech devices, we present a case study to show that it is possible to quantify a degree of confidence about a source speaker's identity in the case of one-to-one voice conversion. Following voice conversion using a HiFi-GAN vocoder, we compare information leakage for a range speaker characteristics; assuming a "worst-case" white-box scenario, we quantify our confidence to perform inference and narrow the pool of likely source speakers, reinforcing the regulatory obligation and moral duty that providers of synthetic voices have to ensure the privacy of their speakers' data.
- Abstract(参考訳): 本稿では,マルチアセンティブの並列発話コーパスを用いて,1対1の音声変換の場合の音源話者の同一性に対する信頼度を定量化できることを示す。
我々は、HiFi-GANボコーダを用いた音声変換に続いて、情報漏洩を範囲話者の特性と比較し、"Worst-case" のホワイトボックスシナリオを仮定し、推測を行う自信を定量化し、情報源話者のプールを狭め、合成音声提供者のプライバシーを確保するための規制義務とモラル義務を補強する。
関連論文リスト
- Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。
KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。
UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-11T00:47:29Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Who is Authentic Speaker [4.822108779108675]
音声変換は、操作された音声が偽りの目的で使用される場合、潜在的な社会的問題を引き起こす可能性がある。
音源の音響特性が大きく変化しているため、変換された音声から実際の話者が誰であるかを見つけることは大きな課題である。
本研究は, 話者の声が異なるターゲット音声に変換された場合でも, 音源話者からの特定の情報が持続するという仮定を用いて行った。
論文 参考訳(メタデータ) (2024-04-30T23:41:00Z) - Catch You and I Can: Revealing Source Voiceprint Against Voice
Conversion [0.0]
音声変換法で合成した音声から高クレジットで音源を復元する試みを初めて行った。
変換された音声サンプルから音源話者の音声プリントを効果的に抽出する表現学習モデルであるRevelioを開発した。
論文 参考訳(メタデータ) (2023-02-24T03:33:13Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Cross-speaker style transfer for text-to-speech using data augmentation [11.686745250628247]
音声変換によるデータ拡張を用いた音声合成(TTS)における話者間通信の問題点に対処する。
対象話者から中性非表現データのコーパスを持ち、異なる話者からの会話表現データをサポートすると仮定する。
提案した技術を、7つの言語にまたがる14の話者のセットにスケールすることで、結論付けます。
論文 参考訳(メタデータ) (2022-02-10T15:10:56Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。