論文の概要: Towards the Development of a Real-Time Deepfake Audio Detection System in Communication Platforms
- arxiv url: http://arxiv.org/abs/2403.11778v1
- Date: Mon, 18 Mar 2024 13:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:29:45.096176
- Title: Towards the Development of a Real-Time Deepfake Audio Detection System in Communication Platforms
- Title(参考訳): 通信プラットフォームにおけるリアルタイムディープフェイク音声検出システムの開発に向けて
- Authors: Jonat John Mathew, Rakin Ahsan, Sae Furukawa, Jagdish Gautham Krishna Kumar, Huzaifa Pallan, Agamjeet Singh Padda, Sara Adamski, Madhu Reddiboina, Arjun Pankajakshan,
- Abstract要約: ディープフェイクオーディオは、音声ストリームの整合性のためにリアルタイム検出を必要とする通信プラットフォームにおいて、ますます脅威となる。
本研究では,リアルタイム通信プラットフォームにおける静的ディープフェイク音声検出モデルの適用可能性を評価する。
ResnetとLCNNアーキテクチャに基づく2つのディープフェイク音声検出モデルを実装した。
- 参考スコア(独自算出の注目度): 0.5850093728139567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake audio poses a rising threat in communication platforms, necessitating real-time detection for audio stream integrity. Unlike traditional non-real-time approaches, this study assesses the viability of employing static deepfake audio detection models in real-time communication platforms. An executable software is developed for cross-platform compatibility, enabling real-time execution. Two deepfake audio detection models based on Resnet and LCNN architectures are implemented using the ASVspoof 2019 dataset, achieving benchmark performances compared to ASVspoof 2019 challenge baselines. The study proposes strategies and frameworks for enhancing these models, paving the way for real-time deepfake audio detection in communication platforms. This work contributes to the advancement of audio stream security, ensuring robust detection capabilities in dynamic, real-time communication scenarios.
- Abstract(参考訳): ディープフェイクオーディオは、音声ストリームの整合性のためにリアルタイム検出を必要とする通信プラットフォームにおいて、ますます脅威となる。
本研究は,従来の非リアルタイム手法と異なり,リアルタイム通信プラットフォームにおける静的ディープフェイク音声検出モデルの適用可能性を評価する。
実行可能ソフトウェアはクロスプラットフォーム互換のために開発され、リアルタイム実行が可能である。
ResnetとLCNNアーキテクチャに基づく2つのディープフェイクオーディオ検出モデルは、ASVspoof 2019データセットを使用して実装されており、ASVspoof 2019チャレンジベースラインと比較してベンチマークパフォーマンスが達成されている。
本研究は、これらのモデルを強化するための戦略とフレームワークを提案し、通信プラットフォームにおけるリアルタイムディープフェイク音声検出の道を開いた。
この研究は、オーディオストリームセキュリティの進歩に寄与し、動的でリアルタイムな通信シナリオにおけるロバストな検出機能を保証する。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - Proactive Detection of Voice Cloning with Localized Watermarking [52.77113619386194]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Synthetic Voice Detection and Audio Splicing Detection using
SE-Res2Net-Conformer Architecture [2.9805017559176883]
本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。
ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,スプーフィング対策の性能を向上させることができることがわかった。
本稿では,既存の音声スプライシング検出問題を再定式化することを提案する。
論文 参考訳(メタデータ) (2022-10-07T14:30:13Z) - Matching Text and Audio Embeddings: Exploring Transfer-learning
Strategies for Language-based Audio Retrieval [11.161404854726348]
本稿では,クロスモーダル(テキスト・トゥ・オーディオ)検索に用いる大規模事前学習モデルの解析を行う。
我々は、これらのモデルから抽出された埋め込みをメトリクス学習フレームワークで使用し、一致するオーディオとテキストのペアを接続する。
論文 参考訳(メタデータ) (2022-10-06T11:45:14Z) - End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
論文 参考訳(メタデータ) (2022-07-27T10:25:59Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。