論文の概要: A Benchmark for Multi-speaker Anonymization
- arxiv url: http://arxiv.org/abs/2407.05608v1
- Date: Mon, 8 Jul 2024 04:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:00:01.970945
- Title: A Benchmark for Multi-speaker Anonymization
- Title(参考訳): マルチ話者匿名化のためのベンチマーク
- Authors: Xiaoxiao Miao, Ruijie Tao, Chang Zeng, Xin Wang,
- Abstract要約: 本稿では,実世界のアプリケーションを対象としたマルチ話者匿名化ベンチマークを提案する。
カスケードシステムは、話者ダイアリゼーションを使用して、各話者の音声を集約し、話者匿名化を行い、話者のプライバシーを隠蔽し、音声コンテンツを保存する。
非オーバーラップシミュレーションと実世界のデータセットによる実験は、マルチスピーカー匿名化システムの有効性を実証している。
- 参考スコア(独自算出の注目度): 9.990701310620368
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Privacy-preserving voice protection approaches primarily suppress privacy-related information derived from paralinguistic attributes while preserving the linguistic content. Existing solutions focus on single-speaker scenarios. However, they lack practicality for real-world applications, i.e., multi-speaker scenarios. In this paper, we present an initial attempt to provide a multi-speaker anonymization benchmark by defining the task and evaluation protocol, proposing benchmarking solutions, and discussing the privacy leakage of overlapping conversations. Specifically, ideal multi-speaker anonymization should preserve the number of speakers and the turn-taking structure of the conversation, ensuring accurate context conveyance while maintaining privacy. To achieve that, a cascaded system uses speaker diarization to aggregate the speech of each speaker and speaker anonymization to conceal speaker privacy and preserve speech content. Additionally, we propose two conversation-level speaker vector anonymization methods to improve the utility further. Both methods aim to make the original and corresponding pseudo-speaker identities of each speaker unlinkable while preserving or even improving the distinguishability among pseudo-speakers in a conversation. The first method minimizes the differential similarity across speaker pairs in the original and anonymized conversations to maintain original speaker relationships in the anonymized version. The other method minimizes the aggregated similarity across anonymized speakers to achieve better differentiation between speakers. Experiments conducted on both non-overlap simulated and real-world datasets demonstrate the effectiveness of the multi-speaker anonymization system with the proposed speaker anonymizers. Additionally, we analyzed overlapping speech regarding privacy leakage and provide potential solutions.
- Abstract(参考訳): プライバシ保護音声保護アプローチは、主に言語コンテンツを保存しながら、パラ言語的属性から派生したプライバシー関連情報を抑圧する。
既存のソリューションは、単一話者シナリオに重点を置いている。
しかし、現実のアプリケーション、すなわちマルチスピーカーのシナリオには実用性がない。
本稿では、タスクと評価プロトコルを定義し、ベンチマークソリューションを提案し、重複する会話のプライバシー漏洩について議論することで、マルチスピーカーの匿名化ベンチマークを提供するための最初の試みについて述べる。
具体的には、理想的なマルチスピーカー匿名化は、話者数と会話のターンテイク構造を維持し、プライバシーを維持しながら正確なコンテキスト伝達を保証するべきである。
これを実現するために、話者ダイアリゼーションを用いて各話者の音声を集約し、話者匿名化を行い、話者のプライバシーを隠蔽し、音声コンテンツを保存する。
さらに,2つの会話レベルの話者ベクトル匿名化手法を提案する。
どちらの手法も、会話中の擬似話者の識別性を維持したり改善したりしながら、各話者の本来の擬似話者IDと対応する擬似話者IDをリンク不能にすることを目的としている。
第1の方法は、匿名化会話における話者対間の差分類似性を最小化し、匿名化バージョンにおける話者関係を維持する。
もう一つの方法は、匿名話者間で集約された類似性を最小化し、話者間のより良い差別化を実現することである。
提案した話者匿名化システムによるマルチ話者匿名化システムの有効性を,非オーバーラップシミュレーションと実世界のデータセットの両方で実証した。
さらに、プライバシー漏洩に関する重複したスピーチを分析し、潜在的な解決策を提供した。
関連論文リスト
- Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Anonymizing Speech: Evaluating and Designing Speaker Anonymization
Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。
本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-05T16:14:17Z) - Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:12:42Z) - Speaker Anonymization with Phonetic Intermediate Representations [22.84840887071428]
本稿では,話者の匿名化パイプラインを提案する。
中間表現として電話を用いると、入力から話者識別情報のほぼ完全な除去が保証される。
論文 参考訳(メタデータ) (2022-07-11T13:02:08Z) - Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文 参考訳(メタデータ) (2022-02-23T23:20:30Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Design Choices for X-vector Based Speaker Anonymization [48.46018902334472]
第1回VoicePrivacy Challengeのベースラインとして,フレキシブルな擬似話者選択手法を提案する。
LibriSpeechから派生したデータセットを使用して実験を行い、プライバシとユーティリティの観点から設計選択の最適な組み合わせを見つける。
論文 参考訳(メタデータ) (2020-05-18T11:32:14Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。