論文の概要: PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response
- arxiv url: http://arxiv.org/abs/2402.18085v4
- Date: Mon, 26 May 2025 14:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:18.157371
- Title: PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response
- Title(参考訳): PITCH: チャレンジ応答を用いたディープフェイク音声通話のAI支援タギング
- Authors: Govind Mittal, Arthur Jakobsson, Kelly O. Marshall, Chinmay Hegde, Nasir Memon,
- Abstract要約: 我々は,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを開発した。
PITCHの課題は、マシン検出能力を88.7%のAUROCスコアに向上させた。
疑わしい通話を「ディープフェイク風」とタグ付けする新しい人間とAI協調システムを開発した。
- 参考スコア(独自算出の注目度): 14.604998731837595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of AI voice-cloning technology, particularly audio Real-time Deepfakes (RTDFs), has intensified social engineering attacks by enabling real-time voice impersonation that bypasses conventional enrollment-based authentication. This technology represents an existential threat to phone-based authentication systems, while total identity fraud losses reached $43 billion. Unlike traditional robocalls, these personalized AI-generated voice attacks target high-value accounts and circumvent existing defensive measures, creating an urgent cybersecurity challenge. To address this, we propose PITCH, a robust challenge-response method to detect and tag interactive deepfake audio calls. We developed a comprehensive taxonomy of audio challenges based on the human auditory system, linguistics, and environmental factors, yielding 20 prospective challenges. Testing against leading voice-cloning systems using a novel dataset (18,600 original and 1.6 million deepfake samples from 100 users), PITCH's challenges enhanced machine detection capabilities to 88.7% AUROC score, enabling us to identify 10 highly-effective challenges. For human evaluation, we filtered a challenging, balanced subset on which human evaluators independently achieved 72.6% accuracy, while machines scored 87.7%. Recognizing that call environments require human control, we developed a novel human-AI collaborative system that tags suspicious calls as "Deepfake-likely." Contrary to prior findings, we discovered that integrating human intuition with machine precision offers complementary advantages, giving users maximum control while boosting detection accuracy to 84.5%. This significant improvement situates PITCH's potential as an AI-assisted pre-screener for verifying calls, offering an adaptable approach to combat real-time voice-cloning attacks while maintaining human decision authority.
- Abstract(参考訳): AI音声クローズ技術、特にオーディオリアルタイムディープフェイク(RTDF)の台頭は、従来の登録ベースの認証を回避したリアルタイム音声の偽造を可能にすることによって、社会工学的攻撃を強化している。
この技術は、電話ベースの認証システムに対する実質的な脅威であり、ID詐欺による損失は430億ドルに達した。
従来のロボコールとは異なり、これらのAI生成音声攻撃は、高価値なアカウントをターゲットにし、既存の防御対策を回避し、緊急のサイバーセキュリティ課題を生み出す。
そこで本研究では,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを提案する。
我々は,人間の聴覚システム,言語学,環境要因に基づく音声課題の包括的分類法を開発し,20の課題を生んだ。
PITCHの課題はマシン検出能力を88.7%のAUROCスコアに向上させ、高効率な10の課題を特定できるようにした。
人間の評価では、人間の評価者が独立して72.6%の精度を達成し、機械は87.7%のスコアを得た。
コール環境が人間のコントロールを必要とすることを認識し,疑わしいコールを「ディープフェイク風」とタグ付けする,人間とAIの協調システムを開発した。
従来の知見とは対照的に、人間の直感と機械の精度の統合は相補的な優位性をもたらし、検出精度を84.5%に向上させながら、ユーザによる最大制御を可能にした。
この大幅な改善は、人間の意思決定権限を維持しながらリアルタイムの音声閉鎖攻撃と戦うための適応可能なアプローチを提供する、AI支援のプリスクリーンとしてのPITCHの可能性を示している。
関連論文リスト
- End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Advanced Real-Time Fraud Detection Using RAG-Based LLMs [0.990597034655156]
本稿では,Retrieval Augmented Generation技術を用いた新しいリアルタイム不正検出機構を提案する。
私たちのシステムの重要なイノベーションは、モデル全体をトレーニングすることなく、ポリシーを更新できることです。
この堅牢で柔軟な不正検出システムは、現実世界の展開に適している。
論文 参考訳(メタデータ) (2025-01-25T17:58:05Z) - I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:21:36Z) - A Recurrent Neural Network Approach to the Answering Machine Detection Problem [0.0]
本稿では,YAMNetモデルによる伝達学習を利用した特徴抽出手法を提案する。
その結果, 精度が96%以上であることが確認された。さらに, 誤分類標本の詳細な分析を行い, 98%を超える精度が得られることを明らかにした。
論文 参考訳(メタデータ) (2024-10-07T21:28:09Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response [17.117162678626418]
本稿では,ライブ環境での信頼性を確立するための課題応答手法を提案する。
本稿では,RTDF生成パイプラインに固有の制約を特に対象とする課題の分類について述べる。
この結果は、説明可能でスケーラブルなリアルタイムディープフェイク検出のためのチャレンジ応答システムの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-10-12T13:15:54Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural
Networks [68.8204255655161]
私たちは、Convolutional Neural Networksのアンサンブルを適応させて、スピーカーがCOVID-19に感染しているかどうかを分類します。
最終的には、74.9%のUnweighted Average Recall(UAR)、またはニューラルネットワークをアンサンブルすることで、ROC曲線(AUC)の80.7%を達成する。
論文 参考訳(メタデータ) (2020-12-29T01:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。