Fugu-MT 論文翻訳(概要): Towards the Development of a Real-Time Deepfake Audio Detection System in Communication Platforms

論文の概要: Towards the Development of a Real-Time Deepfake Audio Detection System in Communication Platforms

arxiv url: http://arxiv.org/abs/2403.11778v1
Date: Mon, 18 Mar 2024 13:35:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 20:29:45.096176
Title: Towards the Development of a Real-Time Deepfake Audio Detection System in Communication Platforms
Title（参考訳）: 通信プラットフォームにおけるリアルタイムディープフェイク音声検出システムの開発に向けて
Authors: Jonat John Mathew, Rakin Ahsan, Sae Furukawa, Jagdish Gautham Krishna Kumar, Huzaifa Pallan, Agamjeet Singh Padda, Sara Adamski, Madhu Reddiboina, Arjun Pankajakshan,
Abstract要約: ディープフェイクオーディオは、音声ストリームの整合性のためにリアルタイム検出を必要とする通信プラットフォームにおいて、ますます脅威となる。本研究では,リアルタイム通信プラットフォームにおける静的ディープフェイク音声検出モデルの適用可能性を評価する。 ResnetとLCNNアーキテクチャに基づく2つのディープフェイク音声検出モデルを実装した。
参考スコア（独自算出の注目度）: 0.5850093728139567
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deepfake audio poses a rising threat in communication platforms, necessitating real-time detection for audio stream integrity. Unlike traditional non-real-time approaches, this study assesses the viability of employing static deepfake audio detection models in real-time communication platforms. An executable software is developed for cross-platform compatibility, enabling real-time execution. Two deepfake audio detection models based on Resnet and LCNN architectures are implemented using the ASVspoof 2019 dataset, achieving benchmark performances compared to ASVspoof 2019 challenge baselines. The study proposes strategies and frameworks for enhancing these models, paving the way for real-time deepfake audio detection in communication platforms. This work contributes to the advancement of audio stream security, ensuring robust detection capabilities in dynamic, real-time communication scenarios.
Abstract（参考訳）: ディープフェイクオーディオは、音声ストリームの整合性のためにリアルタイム検出を必要とする通信プラットフォームにおいて、ますます脅威となる。本研究は,従来の非リアルタイム手法と異なり,リアルタイム通信プラットフォームにおける静的ディープフェイク音声検出モデルの適用可能性を評価する。実行可能ソフトウェアはクロスプラットフォーム互換のために開発され、リアルタイム実行が可能である。 ResnetとLCNNアーキテクチャに基づく2つのディープフェイクオーディオ検出モデルは、ASVspoof 2019データセットを使用して実装されており、ASVspoof 2019チャレンジベースラインと比較してベンチマークパフォーマンスが達成されている。本研究は、これらのモデルを強化するための戦略とフレームワークを提案し、通信プラットフォームにおけるリアルタイムディープフェイク音声検出の道を開いた。この研究は、オーディオストリームセキュリティの進歩に寄与し、動的でリアルタイムな通信シナリオにおけるロバストな検出機能を保証する。

関連論文リスト

Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [23.83866791274789]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。 DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。 DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文参考訳（メタデータ） (2025-07-22T08:24:01Z)
Real-Time Emergency Vehicle Siren Detection with Efficient CNNs on Embedded Hardware [0.26249027950824516]
組込みハードウェア上でのリアルタイム展開を目的としたフルスタック緊急車両サイレン検出システムを提案する。提案手法はEPANNから派生した微細調整された畳み込みニューラルネットワークであるE2PANNsに基づいている。リモートWebSocketインターフェースはリアルタイム監視を提供し、ライブデモ機能を容易にする。
論文参考訳（メタデータ） (2025-07-02T10:27:41Z)
From Large-scale Audio Tagging to Real-Time Explainable Emergency Vehicle Sirens Detection [0.26249027950824516]
この研究は、バイナリEVサイレン検出のための軽量畳み込みニューラルネットワークアーキテクチャであるE2PANN(Efficient Emergency Pre trained Audio Neural Networks)を導入している。複数の参照データセットにまたがってE2PANNを微調整し、評価し、組込みハードウェア上でその生存性をテストする。その結果、E2PANNは、高い計算効率とエッジベースのオーディオ監視と安全クリティカルなアプリケーションに適した、この研究領域における新しい最先端技術を確立することが示されている。
論文参考訳（メタデータ） (2025-06-30T00:21:07Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Speculative End-Turn Detector for Efficient Speech Chatbot Assistant [11.136112399898481]
エンドターン検出のための最初の公開データセットであるETDデータセットを紹介する。また,資源制約環境におけるリアルタイムETDを改善するために,効率と精度のバランスをとる新しい協調推論フレームワークであるSpeculativeETDを提案する。実験により,提案したSpeculativeETDは,必要な計算量を低く保ちながら,ETDの精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-03-30T13:34:23Z)
Efficient Streaming Voice Steganalysis in Challenging Detection Scenarios [13.049308869863248]
本稿ではDVSF(Dual-View VoIP Steganalysis Framework)を紹介する。このフレームワークは、VoIPストリームセグメント内のネイティブステガノグラフ記述子の一部をランダムに難読化する。次に、VoIPのグローバル機能に基づいて、ステガノグラフィーに関連するきめ細かい局所的特徴をキャプチャする。
論文参考訳（メタデータ） (2024-11-20T02:22:58Z)
DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文参考訳（メタデータ） (2024-11-15T13:47:33Z)
STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking [8.238662377845142]
本稿では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。 AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-08T12:15:17Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。 AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。 AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-30T18:56:22Z)
Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文参考訳（メタデータ） (2023-10-17T16:22:18Z)
Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文参考訳（メタデータ） (2023-06-19T03:10:57Z)
End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。我々の最高の性能モデルは88.929%の精度を達成した。
論文参考訳（メタデータ） (2022-07-27T10:25:59Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。