論文の概要: PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response
- arxiv url: http://arxiv.org/abs/2402.18085v3
- Date: Tue, 01 Oct 2024 16:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:31:20.027303
- Title: PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response
- Title(参考訳): PITCH: チャレンジ応答を用いたディープフェイク音声通話のAI支援タギング
- Authors: Govind Mittal, Arthur Jakobsson, Kelly O. Marshall, Chinmay Hegde, Nasir Memon,
- Abstract要約: PITCHは対話型ディープフェイク音声通話を検出しタグ付けするための堅牢なチャレンジ応答方式である。
本研究では,人間の聴覚システム,言語学,環境要因に基づく音声課題の包括的分類法を開発した。
私たちのソリューションでは、最大制御と検出精度を84.5%に向上しました。
- 参考スコア(独自算出の注目度): 14.604998731837595
- License:
- Abstract: The rise of AI voice-cloning technology, particularly audio Real-time Deepfakes (RTDFs), has intensified social engineering attacks by enabling real-time voice impersonation that bypasses conventional enrollment-based authentication. To address this, we propose PITCH, a robust challenge-response method to detect and tag interactive deepfake audio calls. We developed a comprehensive taxonomy of audio challenges based on the human auditory system, linguistics, and environmental factors, yielding 20 prospective challenges. These were tested against leading voice-cloning systems using a novel dataset comprising 18,600 original and 1.6 million deepfake samples from 100 users. PITCH's prospective challenges enhanced machine detection capabilities to 88.7% AUROC score on the full unbalanced dataset, enabling us to shortlist 10 functional challenges that balance security and usability. For human evaluation and subsequent analyses, we filtered a challenging, balanced subset. On this subset, human evaluators independently scored 72.6% accuracy, while machines achieved 87.7%. Acknowledging that call environments require higher human control, we aided call receivers in making decisions with them using machines. Our solution uses an early warning system to tag suspicious incoming calls as "Deepfake-likely." Contrary to prior findings, we discovered that integrating human intuition with machine precision offers complementary advantages. Our solution gave users maximum control and boosted detection accuracy to 84.5%. Evidenced by this jump in accuracy, PITCH demonstrated the potential for AI-assisted pre-screening in call verification processes, offering an adaptable and usable approach to combat real-time voice-cloning attacks. Code to reproduce and access data at \url{https://github.com/mittalgovind/PITCH-Deepfakes}.
- Abstract(参考訳): AI音声クローズ技術、特にオーディオリアルタイムディープフェイク(RTDF)の台頭は、従来の登録ベースの認証をバイパスするリアルタイム音声の偽造を可能にすることによって、社会工学的攻撃を強化している。
そこで本研究では,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを提案する。
我々は,人間の聴覚システム,言語学,環境要因に基づく音声課題の包括的分類法を開発し,20の課題を生んだ。
これらは、100人のユーザーによる18,600のオリジナルと1.6万のディープフェイクサンプルからなる新しいデータセットを用いて、主要な音声閉鎖システムに対してテストされた。
PITCHの今後の課題は、完全なアンバランスデータセットにおいて、マシン検出能力を88.7% AUROCスコアに向上させ、セキュリティとユーザビリティのバランスをとる10の機能課題をショートリスト化可能にする。
人間の評価とその後の分析のために、我々は困難でバランスの取れたサブセットをフィルタリングした。
このサブセットでは、人間の評価者がそれぞれ72.6%の精度で評価し、機械は87.7%の精度で評価された。
コール環境がより高いヒューマンコントロールを必要とすることを認めたので、私たちは、マシンを使用して意思決定を行う上で、コールレシーバーを支援しました。
私たちのソリューションでは、不審な着信を“Deepfake-likely”とタグ付けするために、早期警告システムを使用します。
従来の知見とは対照的に,人間の直観と機械の精度の統合は相補的な優位性をもたらすことがわかった。
私たちのソリューションでは、最大制御と検出精度を84.5%に向上しました。
この精度の上昇によってPITCHは、呼び出し検証プロセスにおいてAIによる事前スクリーニングの可能性を実証し、リアルタイムの音声閉鎖攻撃と戦うための適応的で有用なアプローチを提供した。
データの再生とアクセスは \url{https://github.com/mittalgovind/PITCH-Deepfakes} で行う。
関連論文リスト
- I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:21:36Z) - A Recurrent Neural Network Approach to the Answering Machine Detection Problem [0.0]
本稿では,YAMNetモデルによる伝達学習を利用した特徴抽出手法を提案する。
その結果, 精度が96%以上であることが確認された。さらに, 誤分類標本の詳細な分析を行い, 98%を超える精度が得られることを明らかにした。
論文 参考訳(メタデータ) (2024-10-07T21:28:09Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response [17.117162678626418]
本稿では,ライブ環境での信頼性を確立するための課題応答手法を提案する。
本稿では,RTDF生成パイプラインに固有の制約を特に対象とする課題の分類について述べる。
この結果は、説明可能でスケーラブルなリアルタイムディープフェイク検出のためのチャレンジ応答システムの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-10-12T13:15:54Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural
Networks [68.8204255655161]
私たちは、Convolutional Neural Networksのアンサンブルを適応させて、スピーカーがCOVID-19に感染しているかどうかを分類します。
最終的には、74.9%のUnweighted Average Recall(UAR)、またはニューラルネットワークをアンサンブルすることで、ROC曲線(AUC)の80.7%を達成する。
論文 参考訳(メタデータ) (2020-12-29T01:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。