論文の概要: Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech
- arxiv url: http://arxiv.org/abs/2603.07551v1
- Date: Sun, 08 Mar 2026 09:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.800141
- Title: Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech
- Title(参考訳): ゼロショットテキスト音声におけるターゲット話者ポジショニングフレームワーク
- Authors: Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan,
- Abstract要約: Zero-shot Text-to-Speech (TTS)音声クローンは、深刻なプライバシーリスクを引き起こす。
我々はこのタスクを音声生成話者中毒(SGSP)として定式化する。
我々は、訓練されたモデルを変更して、他の話者の実用性を維持しながら、特定のアイデンティティの生成を防止する。
- 参考スコア(独自算出の注目度): 42.343691065979215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Text-to-Speech (TTS) voice cloning poses severe privacy risks, demanding the removal of specific speaker identities from trained TTS models. Conventional machine unlearning is insufficient in this context, as zero-shot TTS can dynamically reconstruct voices from just reference prompts. We formalize this task as Speech Generation Speaker Poisoning (SGSP), in which we modify trained models to prevent the generation of specific identities while preserving utility for other speakers. We evaluate inference-time filtering and parameter-modification baselines across 1, 15, and 100 forgotten speakers. Performance is assessed through the trade-off between utility (WER) and privacy, quantified using AUC and Forget Speaker Similarity (FSSIM). We achieve strong privacy for up to 15 speakers but reveal scalability limits at 100 speakers due to increased identity overlap. Our study thus introduces a novel problem and evaluation framework toward further advances in generative voice privacy.
- Abstract(参考訳): Zero-shot Text-to-Speech (TTS)音声クローンは、トレーニングされたTSモデルから特定の話者IDを削除することを要求する、深刻なプライバシーリスクを引き起こす。
ゼロショットTSは、単に参照プロンプトから音声を動的に再構築することができるため、この文脈では従来の機械学習は不十分である。
我々は、このタスクを音声生成話者中毒(SGSP)として定式化し、訓練されたモデルを変更して、他の話者に対するユーティリティを保ちながら、特定のアイデンティティの生成を防止する。
本研究では,1,15,100話者を対象に,推定時間フィルタリングとパラメータ修正ベースラインの評価を行った。
性能はユーティリティ(WER)とプライバシのトレードオフを通じて評価され、AUCとFSSIMを用いて定量化される。
最大15人のスピーカーに対して強力なプライバシを実現していますが、アイデンティティの重複が増大するため、100人のスピーカーでスケーラビリティの限界を明らかにします。
そこで本研究では,生成音声プライバシのさらなる進歩に向けた新たな問題と評価枠組みを提案する。
関連論文リスト
- Do Not Mimic My Voice: Speaker Identity Unlearning for Zero-Shot Text-to-Speech [17.20822861589935]
ZS-TTSは、最小限のオーディオキューから高忠実な音声合成を可能にし、プライバシーと倫理上の懸念を生じさせた。
音声のプライバシーに対する脅威にもかかわらず、望ましくない個々の声を複製する知識を選択的に除去する研究は行われていない。
我々は、ZS-TTSのための最初の機械学習フレームワーク、特にTGU(Teacher-Guided Unlearning)を提案する。
提案手法は,未知の話者が追跡不能であることを保証するため,話者の音声が一貫した複製されないようにランダム性を組み込む。
論文 参考訳(メタデータ) (2025-07-27T06:13:58Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - USAT: A Universal Speaker-Adaptive Text-to-Speech Approach [11.022840133207788]
目に見えない、データセット外話者のために、人生のようなスピーチを無視するという課題は、重要で未解決のままである。
ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分である。
非常に多様なアクセントを再現することができず、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。
提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。
論文 参考訳(メタデータ) (2024-04-28T06:50:55Z) - Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters [47.75276947690528]
ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
論文 参考訳(メタデータ) (2024-01-10T12:21:21Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。