論文の概要: Towards the Development of a Real-Time Deepfake Audio Detection System in Communication Platforms
- arxiv url: http://arxiv.org/abs/2403.11778v1
- Date: Mon, 18 Mar 2024 13:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:29:45.096176
- Title: Towards the Development of a Real-Time Deepfake Audio Detection System in Communication Platforms
- Title(参考訳): 通信プラットフォームにおけるリアルタイムディープフェイク音声検出システムの開発に向けて
- Authors: Jonat John Mathew, Rakin Ahsan, Sae Furukawa, Jagdish Gautham Krishna Kumar, Huzaifa Pallan, Agamjeet Singh Padda, Sara Adamski, Madhu Reddiboina, Arjun Pankajakshan,
- Abstract要約: ディープフェイクオーディオは、音声ストリームの整合性のためにリアルタイム検出を必要とする通信プラットフォームにおいて、ますます脅威となる。
本研究では,リアルタイム通信プラットフォームにおける静的ディープフェイク音声検出モデルの適用可能性を評価する。
ResnetとLCNNアーキテクチャに基づく2つのディープフェイク音声検出モデルを実装した。
- 参考スコア(独自算出の注目度): 0.5850093728139567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake audio poses a rising threat in communication platforms, necessitating real-time detection for audio stream integrity. Unlike traditional non-real-time approaches, this study assesses the viability of employing static deepfake audio detection models in real-time communication platforms. An executable software is developed for cross-platform compatibility, enabling real-time execution. Two deepfake audio detection models based on Resnet and LCNN architectures are implemented using the ASVspoof 2019 dataset, achieving benchmark performances compared to ASVspoof 2019 challenge baselines. The study proposes strategies and frameworks for enhancing these models, paving the way for real-time deepfake audio detection in communication platforms. This work contributes to the advancement of audio stream security, ensuring robust detection capabilities in dynamic, real-time communication scenarios.
- Abstract(参考訳): ディープフェイクオーディオは、音声ストリームの整合性のためにリアルタイム検出を必要とする通信プラットフォームにおいて、ますます脅威となる。
本研究は,従来の非リアルタイム手法と異なり,リアルタイム通信プラットフォームにおける静的ディープフェイク音声検出モデルの適用可能性を評価する。
実行可能ソフトウェアはクロスプラットフォーム互換のために開発され、リアルタイム実行が可能である。
ResnetとLCNNアーキテクチャに基づく2つのディープフェイクオーディオ検出モデルは、ASVspoof 2019データセットを使用して実装されており、ASVspoof 2019チャレンジベースラインと比較してベンチマークパフォーマンスが達成されている。
本研究は、これらのモデルを強化するための戦略とフレームワークを提案し、通信プラットフォームにおけるリアルタイムディープフェイク音声検出の道を開いた。
この研究は、オーディオストリームセキュリティの進歩に寄与し、動的でリアルタイムな通信シナリオにおけるロバストな検出機能を保証する。
関連論文リスト
- Efficient Streaming Voice Steganalysis in Challenging Detection Scenarios [13.049308869863248]
本稿ではDVSF(Dual-View VoIP Steganalysis Framework)を紹介する。
このフレームワークは、VoIPストリームセグメント内のネイティブステガノグラフ記述子の一部をランダムに難読化する。
次に、VoIPのグローバル機能に基づいて、ステガノグラフィーに関連するきめ細かい局所的特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-11-20T02:22:58Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。
実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。
ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking [8.238662377845142]
本稿では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。
AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-08T12:15:17Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
論文 参考訳(メタデータ) (2022-07-27T10:25:59Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。