論文の概要: Context and Transcripts Improve Detection of Deepfake Audios of Public Figures
- arxiv url: http://arxiv.org/abs/2601.13464v1
- Date: Mon, 19 Jan 2026 23:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.099515
- Title: Context and Transcripts Improve Detection of Deepfake Audios of Public Figures
- Title(参考訳): パブリックフィギュアのディープフェイク音声の検出を改善するコンテキストとトランスクリプト
- Authors: Chongyang Gao, Marco Postiglione, Julian Baldwin, Natalia Denisenko, Isabel Gortner, Luke Fosdick, Chiara Pulice, Sarit Kraus, V. S. Subrahmanian,
- Abstract要約: 現在のオーディオディープフェイク検出器は、文脈や書き起こしを考慮せずにオーディオファイルを解析するのみである。
音声深度検出装置の有効性は,十分なコンテキストおよび/または転写書が向上できることが示唆された。
さらに,CADDは,文脈や書き起こしを用いて,5つの敵の回避戦略に対してより堅牢であることを示す。
- 参考スコア(独自算出の注目度): 24.44957433526574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans use context to assess the veracity of information. However, current audio deepfake detectors only analyze the audio file without considering either context or transcripts. We create and analyze a Journalist-provided Deepfake Dataset (JDD) of 255 public deepfakes which were primarily contributed by over 70 journalists since early 2024. We also generate a synthetic audio dataset (SYN) of dead public figures and propose a novel Context-based Audio Deepfake Detector (CADD) architecture. In addition, we evaluate performance on two large-scale datasets: ITW and P$^2$V. We show that sufficient context and/or the transcript can significantly improve the efficacy of audio deepfake detectors. Performance (measured via F1 score, AUC, and EER) of multiple baseline audio deepfake detectors and traditional classifiers can be improved by 5%-37.58% in F1-score, 3.77%-42.79% in AUC, and 6.17%-47.83% in EER. We additionally show that CADD, via its use of context and/or transcripts, is more robust to 5 adversarial evasion strategies, limiting performance degradation to an average of just -0.71% across all experiments. Code, models, and datasets are available at our project page: https://sites.northwestern.edu/nsail/cadd-context-based-audio-deepfake-detection (access restricted during review).
- Abstract(参考訳): 人間はコンテキストを使って情報の正確性を評価する。
しかし、現在のオーディオディープフェイク検出器は、文脈や書き起こしを考慮せずに、オーディオファイルを解析するのみである。
我々は、2024年初めから70人以上のジャーナリストが主に貢献してきた255の公開ディープフェイクからなるジャーナリストが提供するディープフェイクデータセット(JDD)を作成し、分析した。
また、死んだ公開人物の合成音声データセット(SYN)も生成し、新しいコンテキストベースのAudio Deepfake Detector(CADD)アーキテクチャを提案する。
さらに,ITWとP$2$Vの2つの大規模データセットの性能評価を行った。
音声深度検出装置の有効性は,十分なコンテキストおよび/または転写書が向上できることが示唆された。
複数のベースラインオーディオディープフェイク検出器と従来の分類器の性能は、F1スコアで5%-37.58%、AUCで3.77%-42.79%、EERで6.17%-47.83%向上できる。
さらに、CADDは、文脈および/または書き起こしを用いて、5つの敵の回避戦略に対してより堅牢であり、全ての実験においてパフォーマンス劣化を平均-0.71%に制限していることを示す。
コード、モデル、データセットは、プロジェクトページで利用可能である。 https://sites.northwestern.edu/nsail/cadd-context-based-audio-deepfake-detection (レビュー中にアクセス制限)。
関連論文リスト
- AUDDT: Audio Unified Deepfake Detection Benchmark Toolkit [7.279026980203529]
既存の28のオーディオディープフェイクデータセットを体系的にレビューし、AUDDTと呼ばれるオープンソースのベンチマークツールキットを提示する。
このツールキットの目的は、これらの28のデータセットにわたる事前訓練された検出器の評価を自動化することであり、ディープフェイク検出器の利点と欠点を直接フィードバックすることである。
論文 参考訳(メタデータ) (2025-09-25T21:09:40Z) - MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark [108.46287432944392]
マルチリンガル・オーディオ・ビデオ・ディープフェイク検出のための大規模オープンセット・ベンチマークを初めて提示する。
私たちのデータセットは8つの言語で250時間以上の実ビデオと偽ビデオで構成されています。
各言語について、偽ビデオは7つの異なるディープフェイク生成モデルで生成される。
論文 参考訳(メタデータ) (2025-05-16T10:42:30Z) - End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。