論文の概要: PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response
- arxiv url: http://arxiv.org/abs/2402.18085v4
- Date: Mon, 26 May 2025 14:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:18.157371
- Title: PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response
- Title(参考訳): PITCH: チャレンジ応答を用いたディープフェイク音声通話のAI支援タギング
- Authors: Govind Mittal, Arthur Jakobsson, Kelly O. Marshall, Chinmay Hegde, Nasir Memon,
- Abstract要約: 我々は,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを開発した。
PITCHの課題は、マシン検出能力を88.7%のAUROCスコアに向上させた。
疑わしい通話を「ディープフェイク風」とタグ付けする新しい人間とAI協調システムを開発した。
- 参考スコア(独自算出の注目度): 14.604998731837595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of AI voice-cloning technology, particularly audio Real-time Deepfakes (RTDFs), has intensified social engineering attacks by enabling real-time voice impersonation that bypasses conventional enrollment-based authentication. This technology represents an existential threat to phone-based authentication systems, while total identity fraud losses reached $43 billion. Unlike traditional robocalls, these personalized AI-generated voice attacks target high-value accounts and circumvent existing defensive measures, creating an urgent cybersecurity challenge. To address this, we propose PITCH, a robust challenge-response method to detect and tag interactive deepfake audio calls. We developed a comprehensive taxonomy of audio challenges based on the human auditory system, linguistics, and environmental factors, yielding 20 prospective challenges. Testing against leading voice-cloning systems using a novel dataset (18,600 original and 1.6 million deepfake samples from 100 users), PITCH's challenges enhanced machine detection capabilities to 88.7% AUROC score, enabling us to identify 10 highly-effective challenges. For human evaluation, we filtered a challenging, balanced subset on which human evaluators independently achieved 72.6% accuracy, while machines scored 87.7%. Recognizing that call environments require human control, we developed a novel human-AI collaborative system that tags suspicious calls as "Deepfake-likely." Contrary to prior findings, we discovered that integrating human intuition with machine precision offers complementary advantages, giving users maximum control while boosting detection accuracy to 84.5%. This significant improvement situates PITCH's potential as an AI-assisted pre-screener for verifying calls, offering an adaptable approach to combat real-time voice-cloning attacks while maintaining human decision authority.
- Abstract(参考訳): AI音声クローズ技術、特にオーディオリアルタイムディープフェイク(RTDF)の台頭は、従来の登録ベースの認証を回避したリアルタイム音声の偽造を可能にすることによって、社会工学的攻撃を強化している。
この技術は、電話ベースの認証システムに対する実質的な脅威であり、ID詐欺による損失は430億ドルに達した。
従来のロボコールとは異なり、これらのAI生成音声攻撃は、高価値なアカウントをターゲットにし、既存の防御対策を回避し、緊急のサイバーセキュリティ課題を生み出す。
そこで本研究では,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを提案する。
我々は,人間の聴覚システム,言語学,環境要因に基づく音声課題の包括的分類法を開発し,20の課題を生んだ。
PITCHの課題はマシン検出能力を88.7%のAUROCスコアに向上させ、高効率な10の課題を特定できるようにした。
人間の評価では、人間の評価者が独立して72.6%の精度を達成し、機械は87.7%のスコアを得た。
コール環境が人間のコントロールを必要とすることを認識し,疑わしいコールを「ディープフェイク風」とタグ付けする,人間とAIの協調システムを開発した。
従来の知見とは対照的に、人間の直感と機械の精度の統合は相補的な優位性をもたらし、検出精度を84.5%に向上させながら、ユーザによる最大制御を可能にした。
この大幅な改善は、人間の意思決定権限を維持しながらリアルタイムの音声閉鎖攻撃と戦うための適応可能なアプローチを提供する、AI支援のプリスクリーンとしてのPITCHの可能性を示している。
関連論文リスト
- Moravec's Paradox: Towards an Auditory Turing Test [0.0]
この研究は、現在のAIシステムが、人間が力ずくで行う聴覚的タスクで破滅的に失敗することを示しています。
重なり合う音声,音声の雑音,時間的歪み,空間音声,コーヒーショップノイズ,電話の歪み,知覚錯覚の7つのカテゴリーにまたがる917の課題を含む聴覚チューリングテストを導入する。
GPT-4の音声機能やOpenAIのWhisperを含む最先端オーディオモデルの評価では,93%を超える顕著な故障率を示した。
論文 参考訳(メタデータ) (2025-07-30T20:45:13Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition [95.95622220065884]
MISP 2025 Challengeは、ビデオモダリティをオーディオと組み合わせることで、マルチモーダル、マルチデバイスミーティングの書き起こしに焦点を当てている。
最高の性能のシステムはベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2025-05-20T06:11:51Z) - Learning Multimodal AI Algorithms for Amplifying Limited User Input into High-dimensional Control Space [7.504214864070018]
現在の侵襲的補助技術は、重度麻痺患者の高次元運動制御信号を推定するために設計されている。
非侵襲的な代替手段は、しばしばアーティファクトを起こしやすい信号に依存し、長いユーザートレーニングを必要とし、厳密なタスクに対して堅牢な高次元制御を提供するのに苦労する。
本研究では、失われた運動機能に対するインテリジェント補償機構として、人間中心型マルチモーダルAIアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-16T15:31:40Z) - End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Advanced Real-Time Fraud Detection Using RAG-Based LLMs [0.990597034655156]
本稿では,Retrieval Augmented Generation技術を用いた新しいリアルタイム不正検出機構を提案する。
私たちのシステムの重要なイノベーションは、モデル全体をトレーニングすることなく、ポリシーを更新できることです。
この堅牢で柔軟な不正検出システムは、現実世界の展開に適している。
論文 参考訳(メタデータ) (2025-01-25T17:58:05Z) - I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:21:36Z) - A Recurrent Neural Network Approach to the Answering Machine Detection Problem [0.0]
本稿では,YAMNetモデルによる伝達学習を利用した特徴抽出手法を提案する。
その結果, 精度が96%以上であることが確認された。さらに, 誤分類標本の詳細な分析を行い, 98%を超える精度が得られることを明らかにした。
論文 参考訳(メタデータ) (2024-10-07T21:28:09Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Acoustic Cybersecurity: Exploiting Voice-Activated Systems [0.0]
私たちの研究は、AmazonのAlexa、Android、iOS、Cortanaなど、さまざまなプラットフォームにおけるこれらの攻撃の可能性を広げています。
攻撃の成功率はおよそ60%で、遠隔で100フィート以上離れた場所からデバイスを起動できる。
これらの攻撃は重要なインフラを脅かし、多面的な防御戦略の必要性を強調した。
論文 参考訳(メタデータ) (2023-11-23T02:26:11Z) - GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response [17.117162678626418]
本稿では,ライブ環境での信頼性を確立するための課題応答手法を提案する。
本稿では,RTDF生成パイプラインに固有の制約を特に対象とする課題の分類について述べる。
この結果は、説明可能でスケーラブルなリアルタイムディープフェイク検出のためのチャレンジ応答システムの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-10-12T13:15:54Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural
Networks [68.8204255655161]
私たちは、Convolutional Neural Networksのアンサンブルを適応させて、スピーカーがCOVID-19に感染しているかどうかを分類します。
最終的には、74.9%のUnweighted Average Recall(UAR)、またはニューラルネットワークをアンサンブルすることで、ROC曲線(AUC)の80.7%を達成する。
論文 参考訳(メタデータ) (2020-12-29T01:14:17Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。