論文の概要: SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization
- arxiv url: http://arxiv.org/abs/2508.07086v1
- Date: Sat, 09 Aug 2025 19:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.691884
- Title: SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization
- Title(参考訳): SEF-MK:マルチk平均量子化による話者埋め込み自由音声匿名化
- Authors: Beilong Tang, Xiaoxiao Miao, Xin Wang, Ming Li,
- Abstract要約: 我々はSEF-MKと呼ばれる話者埋め込み不要なフレームワークを提案する。
データセット全体をトレーニングした単一のk平均モデルを使用する代わりに、SEF-MKは複数のk平均モデルの1つをランダムに選択することで、各発話に対するSSL表現を匿名化する。
実験によると、単一のk平均モデルと比較して、複数のk平均モデルを持つSEF-MKは、ユーザの視点から言語的および感情的なコンテンツをよりよく保存する。
- 参考スコア(独自算出の注目度): 11.015726724344722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Voice anonymization protects speaker privacy by concealing identity while preserving linguistic and paralinguistic content. Self-supervised learning (SSL) representations encode linguistic features but preserve speaker traits. We propose a novel speaker-embedding-free framework called SEF-MK. Instead of using a single k-means model trained on the entire dataset, SEF-MK anonymizes SSL representations for each utterance by randomly selecting one of multiple k-means models, each trained on a different subset of speakers. We explore this approach from both attacker and user perspectives. Extensive experiments show that, compared to a single k-means model, SEF-MK with multiple k-means models better preserves linguistic and emotional content from the user's viewpoint. However, from the attacker's perspective, utilizing multiple k-means models boosts the effectiveness of privacy attacks. These insights can aid users in designing voice anonymization systems to mitigate attacker threats.
- Abstract(参考訳): 音声匿名化は、言語的・パラ言語的コンテンツを保持しながらアイデンティティを隠蔽することで話者のプライバシーを保護する。
自己教師付き学習(SSL)表現は言語的特徴を符号化するが、話者特性は保持する。
本稿では,SEF-MKと呼ばれる新しい話者埋め込み自由フレームワークを提案する。
データセット全体でトレーニングされた単一のk平均モデルの代わりに、SEF-MKは複数のk平均モデルの1つをランダムに選択し、各発話に対するSSL表現を匿名化する。
攻撃者側とユーザ側の両方からこのアプローチを検討します。
1つのk平均モデルと比較して、複数のk平均モデルを持つSEF-MKは、ユーザの視点から言語的および感情的なコンテンツをよりよく保存する。
しかし、攻撃者の視点では、複数のk平均モデルを利用することで、プライバシ攻撃の有効性が向上する。
これらの洞察は、攻撃者の脅威を軽減するために音声匿名システムの設計に役立てることができる。
関連論文リスト
- Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。
本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文 参考訳(メタデータ) (2025-03-13T15:11:28Z) - Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT [10.18337180909434]
非転写音声から意味のある特徴を抽出するためには,自己教師付き音声表現学習が不可欠である。
本稿では,音節単位を話者情報から分離する,音声のみの自己教師型微調整手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T09:07:08Z) - Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition [26.693942793501204]
エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。
Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。
訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
論文 参考訳(メタデータ) (2024-06-04T16:59:11Z) - A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting [14.713947276478647]
キーワードスポッティング強化Whisper(KWS-Whisper)を導入し,ユーザ定義された名前付きエンティティを認識する。
モデル最適化のために,OV-KWSとコンテキストASRタスクを学習するマルチタスク学習手法を提案する。
我々は,OV-KWS が ASR 誤り訂正法と凍結ウィスパーモデルを強化するためのプラグイン・アンド・プレイモジュールであることが実証された。
論文 参考訳(メタデータ) (2023-09-18T08:03:54Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。