論文の概要: SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis
- arxiv url: http://arxiv.org/abs/2508.07944v1
- Date: Mon, 11 Aug 2025 12:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.101362
- Title: SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis
- Title(参考訳): SCDF:バイアス分析のための話者特性ディープフェイク音声データセット
- Authors: Vojtěch Staněk, Karel Srna, Anton Firc, Kamil Malinka,
- Abstract要約: 話者特性 ディープフェイクデータセットは、男性と女性両方の話者のバランスの取れた表現で237,000以上の発話を含んでいる。
話者特性が検出性能に大きく影響し,性別,言語,年齢,シンセサイザータイプの違いが明らかになった。
これらの知見は、偏見を意識した開発の必要性を強調し、差別的でないディープフェイク検出システムを構築するための基盤を提供する。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite growing attention to deepfake speech detection, the aspects of bias and fairness remain underexplored in the speech domain. To address this gap, we introduce the Speaker Characteristics Deepfake (SCDF) dataset: a novel, richly annotated resource enabling systematic evaluation of demographic biases in deepfake speech detection. SCDF contains over 237,000 utterances in a balanced representation of both male and female speakers spanning five languages and a wide age range. We evaluate several state-of-the-art detectors and show that speaker characteristics significantly influence detection performance, revealing disparities across sex, language, age, and synthesizer type. These findings highlight the need for bias-aware development and provide a foundation for building non-discriminatory deepfake detection systems aligned with ethical and regulatory standards.
- Abstract(参考訳): ディープフェイク音声検出に注目が集まる一方で、偏見と公平性の側面は、音声領域では未探索のままである。
このギャップに対処するため,話者特徴深度分析(SCDF)データセットを導入した。
SCDFは5つの言語と幅広い年齢範囲にまたがる男女の話者のバランスの取れた表現において237,000以上の発話を含んでいる。
いくつかの最先端検出器を評価し, 話者特性が検出性能に著しく影響を与え, 性別, 言語, 年齢, シンセサイザータイプの違いが明らかとなった。
これらの知見は、偏見を意識した開発の必要性を強調し、倫理的および規制基準に沿った差別的ディープフェイク検出システムを構築するための基盤を提供する。
関連論文リスト
- SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [52.29009595100625]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。
音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。
本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T11:15:22Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Bias in Automated Speaker Recognition [0.0]
自動話者認識における話者検証,音声バイオメトリック,コアタスクの機械学習開発ワークフローにおけるバイアスについて検討する。
我々は、よく知られたVoxCeleb Speaker Recognition Challengeにおいて、すべての発達段階にバイアスが存在することを示す。
影響を受けたのは女性話者と非米国国籍で、パフォーマンスが著しく低下している。
論文 参考訳(メタデータ) (2022-01-24T06:48:57Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。