論文の概要: Content Anonymization for Privacy in Long-form Audio
- arxiv url: http://arxiv.org/abs/2510.12780v1
- Date: Tue, 14 Oct 2025 17:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:15.006799
- Title: Content Anonymization for Privacy in Long-form Audio
- Title(参考訳): 長めオーディオにおけるプライバシーのためのコンテンツ匿名化
- Authors: Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews,
- Abstract要約: ロングフォームオーディオは、インタビュー、電話、会議のようなドメインで一般的な場所である。
同じ話者からの複数の発声が与えられた場合、攻撃者は個人の語彙、構文、言い回しを活用できる。
このリスクに対処する新しいコンテンツ匿名化手法を提案する。
- 参考スコア(独自算出の注目度): 9.679458545535388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.
- Abstract(参考訳): 音声匿名化技術は、VoicePrivacy Challengeのようなベンチマークにおいて、短時間で孤立した発話で話者の音響的アイデンティティを隠蔽することに成功した。
しかし、実際には、発話が単独で起こることは滅多にない。インタビュー、電話、会議のようなドメインでは、ロングフォームオーディオが一般的である。
同一話者からの複数の発話が与えられた場合、攻撃者は、声が完全に変装している場合でも、個人の語彙、構文、フレーズのターンを利用して、それらを再識別することができる。
このリスクに対処するため、我々は新しいコンテンツ匿名化アプローチを提案する。
提案手法では,ASR-TTSパイプラインにおける文字の文脈的書き換えを行い,意味を保ちながら話者固有のスタイルを除去する。
本稿では,音声匿名化音声に対するコンテンツベース攻撃の有効性を示す長文電話通信方式を提案する。
そして,提案手法は,音声の効用を保ちながら,このリスクを軽減できることを示す。
全体として、パラフレーズ化はコンテンツベースの攻撃に対する効果的な防御であり、長文音声の匿名性を確保するためにステークホルダーにこの手順を採用することを推奨している。
関連論文リスト
- VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z) - On the Generation and Removal of Speaker Adversarial Perturbation for Voice-Privacy Protection [45.49915832081347]
近年の音声プライバシ保護の進歩は,話者の音声属性を隠蔽する同じ手法の肯定的な使用例を示している。
本稿では,逆方向の摂動を発生させるエンティティを除去し,元の音声を復元する可逆性について検討する。
同様の手法は、捜査員が音声保護されたスピーチを匿名化し、犯罪者の身元をセキュリティと法医学的分析で復元するためにも用いられる。
論文 参考訳(メタデータ) (2024-12-12T11:46:07Z) - Anonymizing Speech: Evaluating and Designing Speaker Anonymization
Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。
本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-05T16:14:17Z) - Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文 参考訳(メタデータ) (2022-02-23T23:20:30Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Design Choices for X-vector Based Speaker Anonymization [48.46018902334472]
第1回VoicePrivacy Challengeのベースラインとして,フレキシブルな擬似話者選択手法を提案する。
LibriSpeechから派生したデータセットを使用して実験を行い、プライバシとユーティリティの観点から設計選択の最適な組み合わせを見つける。
論文 参考訳(メタデータ) (2020-05-18T11:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。