論文の概要: Evaluating Identity Leakage in Speaker De-Identification Systems
- arxiv url: http://arxiv.org/abs/2508.14012v1
- Date: Tue, 19 Aug 2025 17:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.026587
- Title: Evaluating Identity Leakage in Speaker De-Identification Systems
- Title(参考訳): 話者識別システムにおけるアイデンティティ漏洩の評価
- Authors: Seungmin Seo, Oleg Aulov, Afzal Godil, Kevin Mangold,
- Abstract要約: 話者識別は, 話者の身元を隠蔽し, 話者の身元を隠蔽することを目的としている。
3つの相補的誤り率で残差アイデンティティリークを定量化するベンチマークを導入する。
評価結果から,最先端話者識別システムはすべて識別情報を漏洩していることが明らかとなった。
- 参考スコア(独自算出の注目度): 1.7699344561127388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker de-identification aims to conceal a speaker's identity while preserving intelligibility of the underlying speech. We introduce a benchmark that quantifies residual identity leakage with three complementary error rates: equal error rate, cumulative match characteristic hit rate, and embedding-space similarity measured via canonical correlation analysis and Procrustes analysis. Evaluation results reveal that all state-of-the-art speaker de-identification systems leak identity information. The highest performing system in our evaluation performs only slightly better than random guessing, while the lowest performing system achieves a 45% hit rate within the top 50 candidates based on CMC. These findings highlight persistent privacy risks in current speaker de-identification technologies.
- Abstract(参考訳): 話者識別は, 話者の身元を隠蔽し, 話者の身元を隠蔽することを目的としている。
本稿では,3つの相補的誤り率,累積一致特性ヒット率,正準相関解析とProcrustes解析による埋め込み空間類似性,の3つの相補的誤差率で残差の漏洩を定量化するベンチマークを提案する。
評価結果から,最先端話者識別システムはすべて識別情報を漏洩していることが明らかとなった。
評価における最高性能システムは、ランダムな推測よりもわずかに良いが、最低性能のシステムは、MCCに基づいて上位50候補のうち45%のヒット率を達成する。
これらの知見は、現在の話者識別技術における永続的なプライバシーリスクを浮き彫りにしている。
関連論文リスト
- AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Investigating Confidence Estimation Measures for Speaker Diarization [4.679826697518427]
話者ダイアリゼーションシステムは、話者のアイデンティティに基づいた会話記録をセグメント化する。
話者ダイアリゼーションエラーは、話者のアイデンティティに依存する下流システムに伝播し、悪影響を及ぼす可能性がある。
これらのエラーを軽減する方法の1つは、下流システムにセグメントレベルのダイアリゼーション信頼スコアを提供することである。
論文 参考訳(メタデータ) (2024-06-24T20:21:38Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Meta-Learning Framework for End-to-End Imposter Identification in Unseen
Speaker Recognition [4.143603294943441]
未確認話者認識における不適切な識別のための固定しきい値(EERメトリックを用いた計算)を用いた一般化の問題を示す。
次に、より優れた性能を実現するために、頑健な話者特異的しきい値設定手法を導入する。
提案手法の有効性をVoxCeleb1, VCTK, FFSVC 2022データセットで示し, ベースラインを最大10%上回った。
論文 参考訳(メタデータ) (2023-06-01T17:49:58Z) - Privacy-Utility Balanced Voice De-Identification Using Adversarial
Examples [32.3274243128532]
音声サービスのプライバシーと利便性のバランスをとるための音声識別システムを提案する。
メインストリームのAISや商用システムでは,98%,79%の非識別が達成できた。
論文 参考訳(メタデータ) (2022-11-10T09:35:58Z) - Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-30T08:54:02Z) - Text Independent Speaker Identification System for Access Control [0.0]
ヒューマンインテリジェンスシステムでさえ、特定の個人からスピーチを識別する精度を100%提供できない。
本稿では,Mel Frequency Cepstral Coefficients(MFCC)を特徴抽出に用い,k-Nearest Neighbor(kNN)を分類に用いたテキスト非依存話者識別システムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:42:18Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。