Fugu-MT 論文翻訳(概要): AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response

論文の概要: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response

arxiv url: http://arxiv.org/abs/2402.18085v1
Date: Wed, 28 Feb 2024 06:17:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 06:59:15.584554
Title: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response
Title（参考訳）: チャレンジ応答を用いたディープフェイク音声のAIによるタグ付け
Authors: Govind Mittal, Arthur Jakobsson, Kelly O. Marshall, Chinmay Hegde, Nasir Memon,
Abstract要約: Scammersは、AI音声閉鎖技術を社会工学の攻撃に積極的に活用している。リアルタイムディープフェイク(RTDF)は、電話でターゲットの声をリアルタイムでクローンすることができる。本稿では,ディープフェイク音声通話を検出するための頑健なチャレンジ応答方式を提案する。
参考スコア（独自算出の注目度）: 14.604998731837595
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Scammers are aggressively leveraging AI voice-cloning technology for social engineering attacks, a situation significantly worsened by the advent of audio Real-time Deepfakes (RTDFs). RTDFs can clone a target's voice in real-time over phone calls, making these interactions highly interactive and thus far more convincing. Our research confidently addresses the gap in the existing literature on deepfake detection, which has largely been ineffective against RTDF threats. We introduce a robust challenge-response-based method to detect deepfake audio calls, pioneering a comprehensive taxonomy of audio challenges. Our evaluation pitches 20 prospective challenges against a leading voice-cloning system. We have compiled a novel open-source challenge dataset with contributions from 100 smartphone and desktop users, yielding 18,600 original and 1.6 million deepfake samples. Through rigorous machine and human evaluations of this dataset, we achieved a deepfake detection rate of 86% and an 80% AUC score, respectively. Notably, utilizing a set of 11 challenges significantly enhances detection capabilities. Our findings reveal that combining human intuition with machine precision offers complementary advantages. Consequently, we have developed an innovative human-AI collaborative system that melds human discernment with algorithmic accuracy, boosting final joint accuracy to 82.9%. This system highlights the significant advantage of AI-assisted pre-screening in call verification processes. Samples can be heard at https://mittalgovind.github.io/autch-samples/
Abstract（参考訳）: Scammersは、音声リアルタイムディープフェイク(RTDF)の出現により、AI音声の閉鎖技術を社会工学的攻撃に積極的に活用している。 RTDFは電話でターゲットの声をリアルタイムでクローンできるので、対話性が高く、はるかに説得力がある。本研究は,RTDFの脅威に対してほとんど有効ではないディープフェイク検出に関する既存の文献のギャップを確実に解決するものである。我々は、ディープフェイク音声通話を検出するための頑健なチャレンジ応答方式を導入し、オーディオ課題の包括的分類を開拓した。本評価では,先行する音声閉鎖システムに対して,今後20の課題を提起する。私たちは、100人のスマートフォンとデスクトップユーザのコントリビューションによって、新しいオープンソースのチャレンジデータセットをコンパイルしました。このデータセットの厳密なマシンと人間による評価により,深度検出率86%,AUCスコア80%を達成できた。特に、11の課題のセットを利用すると、検出能力が大幅に向上する。人間の直感と機械の精度の組み合わせは相補的な優位性をもたらすことが明らかとなった。そこで我々は,人間の認識をアルゴリズムの精度で融合させ,最終的な関節の精度を82.9%に向上させる,革新的な人間-AI協調システムを開発した。このシステムは、呼び出し検証プロセスにおけるAIによる事前スクリーニングの大きな利点を強調している。サンプルはhttps://mittalgovind.github.io/autch-samples/で確認できる。

関連論文リスト

Moravec's Paradox: Towards an Auditory Turing Test [0.0]
この研究は、現在のAIシステムが、人間が力ずくで行う聴覚的タスクで破滅的に失敗することを示しています。重なり合う音声,音声の雑音,時間的歪み,空間音声,コーヒーショップノイズ,電話の歪み,知覚錯覚の7つのカテゴリーにまたがる917の課題を含む聴覚チューリングテストを導入する。 GPT-4の音声機能やOpenAIのWhisperを含む最先端オーディオモデルの評価では,93%を超える顕著な故障率を示した。
論文参考訳（メタデータ） (2025-07-30T20:45:13Z)
Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition [95.95622220065884]
MISP 2025 Challengeは、ビデオモダリティをオーディオと組み合わせることで、マルチモーダル、マルチデバイスミーティングの書き起こしに焦点を当てている。最高の性能のシステムはベースラインよりも大幅に改善された。
論文参考訳（メタデータ） (2025-05-20T06:11:51Z)
Learning Multimodal AI Algorithms for Amplifying Limited User Input into High-dimensional Control Space [7.504214864070018]
現在の侵襲的補助技術は、重度麻痺患者の高次元運動制御信号を推定するために設計されている。非侵襲的な代替手段は、しばしばアーティファクトを起こしやすい信号に依存し、長いユーザートレーニングを必要とし、厳密なタスクに対して堅牢な高次元制御を提供するのに苦労する。本研究では、失われた運動機能に対するインテリジェント補償機構として、人間中心型マルチモーダルAIアプローチを提案する。
論文参考訳（メタデータ） (2025-05-16T15:31:40Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
Advanced Real-Time Fraud Detection Using RAG-Based LLMs [0.990597034655156]
本稿では,Retrieval Augmented Generation技術を用いた新しいリアルタイム不正検出機構を提案する。私たちのシステムの重要なイノベーションは、モデル全体をトレーニングすることなく、ポリシーを更新できることです。この堅牢で柔軟な不正検出システムは、現実世界の展開に適している。
論文参考訳（メタデータ） (2025-01-25T17:58:05Z)
I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文参考訳（メタデータ） (2024-10-31T18:21:36Z)
A Recurrent Neural Network Approach to the Answering Machine Detection Problem [0.0]
本稿では,YAMNetモデルによる伝達学習を利用した特徴抽出手法を提案する。その結果, 精度が96%以上であることが確認された。さらに, 誤分類標本の詳細な分析を行い, 98%を超える精度が得られることを明らかにした。
論文参考訳（メタデータ） (2024-10-07T21:28:09Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。 Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文参考訳（メタデータ） (2024-09-03T21:28:45Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Acoustic Cybersecurity: Exploiting Voice-Activated Systems [0.0]
私たちの研究は、AmazonのAlexa、Android、iOS、Cortanaなど、さまざまなプラットフォームにおけるこれらの攻撃の可能性を広げています。攻撃の成功率はおよそ60%で、遠隔で100フィート以上離れた場所からデバイスを起動できる。これらの攻撃は重要なインフラを脅かし、多面的な防御戦略の必要性を強調した。
論文参考訳（メタデータ） (2023-11-23T02:26:11Z)
GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response [17.117162678626418]
本稿では,ライブ環境での信頼性を確立するための課題応答手法を提案する。本稿では,RTDF生成パイプラインに固有の制約を特に対象とする課題の分類について述べる。この結果は、説明可能でスケーラブルなリアルタイムディープフェイク検出のためのチャレンジ応答システムの有望な可能性を示している。
論文参考訳（メタデータ） (2022-10-12T13:15:54Z)
Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。提案手法は,既成話者検証ツールに基づいて実装することができる。そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文参考訳（メタデータ） (2022-09-28T13:46:29Z)
Exploring linguistic feature and model combination for speech recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文参考訳（メタデータ） (2022-06-28T05:09:01Z)
Conformer Based Elderly Speech Recognition System for Alzheimer's Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文参考訳（メタデータ） (2022-06-23T12:50:55Z)
Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文参考訳（メタデータ） (2022-01-15T13:02:40Z)
Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文参考訳（メタデータ） (2021-07-01T08:58:16Z)
Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural Networks [68.8204255655161]
私たちは、Convolutional Neural Networksのアンサンブルを適応させて、スピーカーがCOVID-19に感染しているかどうかを分類します。最終的には、74.9%のUnweighted Average Recall(UAR)、またはニューラルネットワークをアンサンブルすることで、ROC曲線(AUC)の80.7%を達成する。
論文参考訳（メタデータ） (2020-12-29T01:14:17Z)
Adversarial vs behavioural-based defensive AI with joint, continual and active learning: automated evaluation of robustness to deception, poisoning and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文参考訳（メタデータ） (2020-01-13T13:54:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。