Fugu-MT 論文翻訳(概要): PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response

論文の概要: PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response

arxiv url: http://arxiv.org/abs/2402.18085v3
Date: Tue, 01 Oct 2024 16:54:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 02:38:07.727334
Title: PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response
Title（参考訳）: PITCH: チャレンジ応答を用いたディープフェイク音声通話のAI支援タギング
Authors: Govind Mittal, Arthur Jakobsson, Kelly O. Marshall, Chinmay Hegde, Nasir Memon,
Abstract要約: PITCHは対話型ディープフェイク音声通話を検出しタグ付けするための堅牢なチャレンジ応答方式である。本研究では,人間の聴覚システム,言語学,環境要因に基づく音声課題の包括的分類法を開発した。私たちのソリューションでは、最大制御と検出精度を84.5%に向上しました。
参考スコア（独自算出の注目度）: 14.604998731837595
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The rise of AI voice-cloning technology, particularly audio Real-time Deepfakes (RTDFs), has intensified social engineering attacks by enabling real-time voice impersonation that bypasses conventional enrollment-based authentication. To address this, we propose PITCH, a robust challenge-response method to detect and tag interactive deepfake audio calls. We developed a comprehensive taxonomy of audio challenges based on the human auditory system, linguistics, and environmental factors, yielding 20 prospective challenges. These were tested against leading voice-cloning systems using a novel dataset comprising 18,600 original and 1.6 million deepfake samples from 100 users. PITCH's prospective challenges enhanced machine detection capabilities to 88.7% AUROC score on the full unbalanced dataset, enabling us to shortlist 10 functional challenges that balance security and usability. For human evaluation and subsequent analyses, we filtered a challenging, balanced subset. On this subset, human evaluators independently scored 72.6% accuracy, while machines achieved 87.7%. Acknowledging that call environments require higher human control, we aided call receivers in making decisions with them using machines. Our solution uses an early warning system to tag suspicious incoming calls as "Deepfake-likely." Contrary to prior findings, we discovered that integrating human intuition with machine precision offers complementary advantages. Our solution gave users maximum control and boosted detection accuracy to 84.5%. Evidenced by this jump in accuracy, PITCH demonstrated the potential for AI-assisted pre-screening in call verification processes, offering an adaptable and usable approach to combat real-time voice-cloning attacks. Code to reproduce and access data at \url{https://github.com/mittalgovind/PITCH-Deepfakes}.
Abstract（参考訳）: AI音声クローズ技術、特にオーディオリアルタイムディープフェイク(RTDF)の台頭は、従来の登録ベースの認証をバイパスするリアルタイム音声の偽造を可能にすることによって、社会工学的攻撃を強化している。そこで本研究では,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを提案する。我々は,人間の聴覚システム,言語学,環境要因に基づく音声課題の包括的分類法を開発し,20の課題を生んだ。これらは、100人のユーザーによる18,600のオリジナルと1.6万のディープフェイクサンプルからなる新しいデータセットを用いて、主要な音声閉鎖システムに対してテストされた。 PITCHの今後の課題は、完全なアンバランスデータセットにおいて、マシン検出能力を88.7% AUROCスコアに向上させ、セキュリティとユーザビリティのバランスをとる10の機能課題をショートリスト化可能にする。人間の評価とその後の分析のために、我々は困難でバランスの取れたサブセットをフィルタリングした。このサブセットでは、人間の評価者がそれぞれ72.6%の精度で評価し、機械は87.7%の精度で評価された。コール環境がより高いヒューマンコントロールを必要とすることを認めたので、私たちは、マシンを使用して意思決定を行う上で、コールレシーバーを支援しました。私たちのソリューションでは、不審な着信を“Deepfake-likely”とタグ付けするために、早期警告システムを使用します。従来の知見とは対照的に,人間の直観と機械の精度の統合は相補的な優位性をもたらすことがわかった。私たちのソリューションでは、最大制御と検出精度を84.5%に向上しました。この精度の上昇によってPITCHは、呼び出し検証プロセスにおいてAIによる事前スクリーニングの可能性を実証し、リアルタイムの音声閉鎖攻撃と戦うための適応的で有用なアプローチを提供した。データの再生とアクセスは \url{https://github.com/mittalgovind/PITCH-Deepfakes} で行う。

関連論文リスト

Moravec's Paradox: Towards an Auditory Turing Test [0.0]
この研究は、現在のAIシステムが、人間が力ずくで行う聴覚的タスクで破滅的に失敗することを示しています。重なり合う音声,音声の雑音,時間的歪み,空間音声,コーヒーショップノイズ,電話の歪み,知覚錯覚の7つのカテゴリーにまたがる917の課題を含む聴覚チューリングテストを導入する。 GPT-4の音声機能やOpenAIのWhisperを含む最先端オーディオモデルの評価では,93%を超える顕著な故障率を示した。
論文参考訳（メタデータ） (2025-07-30T20:45:13Z)
Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition [95.95622220065884]
MISP 2025 Challengeは、ビデオモダリティをオーディオと組み合わせることで、マルチモーダル、マルチデバイスミーティングの書き起こしに焦点を当てている。最高の性能のシステムはベースラインよりも大幅に改善された。
論文参考訳（メタデータ） (2025-05-20T06:11:51Z)
Learning Multimodal AI Algorithms for Amplifying Limited User Input into High-dimensional Control Space [7.504214864070018]
現在の侵襲的補助技術は、重度麻痺患者の高次元運動制御信号を推定するために設計されている。非侵襲的な代替手段は、しばしばアーティファクトを起こしやすい信号に依存し、長いユーザートレーニングを必要とし、厳密なタスクに対して堅牢な高次元制御を提供するのに苦労する。本研究では、失われた運動機能に対するインテリジェント補償機構として、人間中心型マルチモーダルAIアプローチを提案する。
論文参考訳（メタデータ） (2025-05-16T15:31:40Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
Advanced Real-Time Fraud Detection Using RAG-Based LLMs [0.990597034655156]
本稿では,Retrieval Augmented Generation技術を用いた新しいリアルタイム不正検出機構を提案する。私たちのシステムの重要なイノベーションは、モデル全体をトレーニングすることなく、ポリシーを更新できることです。この堅牢で柔軟な不正検出システムは、現実世界の展開に適している。
論文参考訳（メタデータ） (2025-01-25T17:58:05Z)
I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文参考訳（メタデータ） (2024-10-31T18:21:36Z)
A Recurrent Neural Network Approach to the Answering Machine Detection Problem [0.0]
本稿では,YAMNetモデルによる伝達学習を利用した特徴抽出手法を提案する。その結果, 精度が96%以上であることが確認された。さらに, 誤分類標本の詳細な分析を行い, 98%を超える精度が得られることを明らかにした。
論文参考訳（メタデータ） (2024-10-07T21:28:09Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。 Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文参考訳（メタデータ） (2024-09-03T21:28:45Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Acoustic Cybersecurity: Exploiting Voice-Activated Systems [0.0]
私たちの研究は、AmazonのAlexa、Android、iOS、Cortanaなど、さまざまなプラットフォームにおけるこれらの攻撃の可能性を広げています。攻撃の成功率はおよそ60%で、遠隔で100フィート以上離れた場所からデバイスを起動できる。これらの攻撃は重要なインフラを脅かし、多面的な防御戦略の必要性を強調した。
論文参考訳（メタデータ） (2023-11-23T02:26:11Z)
GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response [17.117162678626418]
本稿では,ライブ環境での信頼性を確立するための課題応答手法を提案する。本稿では,RTDF生成パイプラインに固有の制約を特に対象とする課題の分類について述べる。この結果は、説明可能でスケーラブルなリアルタイムディープフェイク検出のためのチャレンジ応答システムの有望な可能性を示している。
論文参考訳（メタデータ） (2022-10-12T13:15:54Z)
Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。提案手法は,既成話者検証ツールに基づいて実装することができる。そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文参考訳（メタデータ） (2022-09-28T13:46:29Z)
Exploring linguistic feature and model combination for speech recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文参考訳（メタデータ） (2022-06-28T05:09:01Z)
Conformer Based Elderly Speech Recognition System for Alzheimer's Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文参考訳（メタデータ） (2022-06-23T12:50:55Z)
Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文参考訳（メタデータ） (2022-01-15T13:02:40Z)
Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文参考訳（メタデータ） (2021-07-01T08:58:16Z)
Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural Networks [68.8204255655161]
私たちは、Convolutional Neural Networksのアンサンブルを適応させて、スピーカーがCOVID-19に感染しているかどうかを分類します。最終的には、74.9%のUnweighted Average Recall(UAR)、またはニューラルネットワークをアンサンブルすることで、ROC曲線(AUC)の80.7%を達成する。
論文参考訳（メタデータ） (2020-12-29T01:14:17Z)
Adversarial vs behavioural-based defensive AI with joint, continual and active learning: automated evaluation of robustness to deception, poisoning and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文参考訳（メタデータ） (2020-01-13T13:54:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。