論文の概要: Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study
- arxiv url: http://arxiv.org/abs/2602.00295v1
- Date: Fri, 30 Jan 2026 20:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.102002
- Title: Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study
- Title(参考訳): マルチ話者対話型オーディオディープフェイク:分類学,データセット,パイロットスタディ
- Authors: Alabi Ahmed, Vandana Janeja, Sanjay Purushotham,
- Abstract要約: 実話と完全合成された2話者会話を含む2,830の音声クリップからなるマルチ話者対話型オーディオディープフェイクスデータセット(MsCADD)を新たに導入する。
このデータセットでは、LFCC-LCNN、RawNet2、Wav2Vec 2.0の3つのニューラルネットワークベースラインモデルをベンチマークし、F1スコア、正確性、真正レート(TPR)、真負レート(TNR)の観点から性能を報告する。
以上の結果から,これらのベースラインモデルが有用なベンチマークとなったが,合成音声を確実に検出する上で,マルチスピーカーディープフェイク研究において大きなギャップがあることが示唆された。
- 参考スコア(独自算出の注目度): 6.567506441691872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advances in text-to-speech (TTS) technologies have made audio deepfakes increasingly realistic and accessible, raising significant security and trust concerns. While existing research has largely focused on detecting single-speaker audio deepfakes, real-world malicious applications with multi-speaker conversational settings is also emerging as a major underexplored threat. To address this gap, we propose a conceptual taxonomy of multi-speaker conversational audio deepfakes, distinguishing between partial manipulations (one or multiple speakers altered) and full manipulations (entire conversations synthesized). As a first step, we introduce a new Multi-speaker Conversational Audio Deepfakes Dataset (MsCADD) of 2,830 audio clips containing real and fully synthetic two-speaker conversations, generated using VITS and SoundStorm-based NotebookLM models to simulate natural dialogue with variations in speaker gender, and conversational spontaneity. MsCADD is limited to text-to-speech (TTS) types of deepfake. We benchmark three neural baseline models; LFCC-LCNN, RawNet2, and Wav2Vec 2.0 on this dataset and report performance in terms of F1 score, accuracy, true positive rate (TPR), and true negative rate (TNR). Results show that these baseline models provided a useful benchmark, however, the results also highlight that there is a significant gap in multi-speaker deepfake research in reliably detecting synthetic voices under varied conversational dynamics. Our dataset and benchmarks provide a foundation for future research on deepfake detection in conversational scenarios, which is a highly underexplored area of research but also a major area of threat to trustworthy information in audio settings. The MsCADD dataset is publicly available to support reproducibility and benchmarking by the research community.
- Abstract(参考訳): テキスト音声合成技術(TTS)技術の急速な進歩により、オーディオディープフェイクはますます現実的になり、アクセスしやすくなり、セキュリティと信頼の懸念が高まっている。
既存の研究は、単一話者のオーディオディープフェイクの検出に重点を置いているが、マルチスピーカーの会話設定を備えた現実世界の悪意あるアプリケーションも、未解決の脅威として浮上している。
このギャップに対処するために,複数話者の対話型音声深層音の概念分類を提案し,部分的操作(1話者または複数話者の変更)と完全操作(係り受け会話の合成)を区別する。
最初のステップとして,VITS と SoundStorm ベースの NotebookLM モデルを用いて生成した実・完全合成2話者会話を含む2,830 個の音声クリップからなるマルチ話者対話型オーディオディープフェイクスデータセット (MsCADD) を導入する。
MsCADDはテキスト音声(TTS)タイプのディープフェイクに限られている。
このデータセットでは、LFCC-LCNN、RawNet2、Wav2Vec 2.0の3つのニューラルネットワークベースラインモデルをベンチマークし、F1スコア、精度、真正レート(TPR)、真負レート(TNR)のパフォーマンスを報告する。
以上の結果から,これらのベースラインモデルが有用であることを示すとともに,多話者ディープフェイク研究において,多様な対話力学下での合成音声を確実に検出する上で,大きなギャップがあることが示唆された。
我々のデータセットとベンチマークは、会話シナリオにおけるディープフェイク検出に関する将来の研究の基盤を提供する。
MsCADDデータセットは、研究コミュニティによる再現性とベンチマークをサポートするために公開されている。
関連論文リスト
- Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。
47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文 参考訳(メタデータ) (2025-12-16T19:26:44Z) - NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。
提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-01T12:01:40Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。