論文の概要: SONAR: A Synthetic AI-Audio Detection Framework and Benchmark
- arxiv url: http://arxiv.org/abs/2410.04324v2
- Date: Thu, 10 Oct 2024 05:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:30:03.536194
- Title: SONAR: A Synthetic AI-Audio Detection Framework and Benchmark
- Title(参考訳): SONAR:AI-Audio検出フレームワークとベンチマーク
- Authors: Xiang Li, Pin-Yu Chen, Wenqi Wei,
- Abstract要約: SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
- 参考スコア(独自算出の注目度): 59.09338266364506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Text-to-Speech (TTS) and Voice-Conversion (VC) using generative Artificial Intelligence (AI) technology have made it possible to generate high-quality and realistic human-like audio. This introduces significant challenges to distinguishing AI-synthesized speech from the authentic human voice and could raise potential issues of misuse for malicious purposes such as impersonation and fraud, spreading misinformation, deepfakes, and scams. However, existing detection techniques for AI-synthesized audio have not kept pace and often exhibit poor generalization across diverse datasets. In this paper, we introduce SONAR, a synthetic AI-Audio Detection Framework and Benchmark, aiming to provide a comprehensive evaluation for distinguishing cutting-edge AI-synthesized auditory content. SONAR includes a novel evaluation dataset sourced from 9 diverse audio synthesis platforms, including leading TTS providers and state-of-the-art TTS models. It is the first framework to uniformly benchmark AI-audio detection across both traditional and foundation model-based deepfake detection systems. Through extensive experiments, we reveal the generalization limitations of existing detection methods and demonstrate that foundation models exhibit stronger generalization capabilities, which can be attributed to their model size and the scale and quality of pretraining data. Additionally, we explore the effectiveness and efficiency of few-shot fine-tuning in improving generalization, highlighting its potential for tailored applications, such as personalized detection systems for specific entities or individuals. Code and dataset are available at https://github.com/Jessegator/SONAR.
- Abstract(参考訳): 生成人工知能(AI)技術を用いたテキスト音声変換(TTS)と音声変換(VC)の最近の進歩により、高品質でリアルな人間のような音声を生成できるようになった。
このことは、AI合成音声と人間の声を区別する重要な課題を導入し、不正行為や詐欺、偽情報の拡散、ディープフェイク、詐欺といった悪意ある目的に対する誤用の潜在的な問題を提起する可能性がある。
しかし、AI合成オーディオの既存の検出技術はペースを保っておらず、多種多様なデータセットにまたがる一般化が不十分であることが多い。
本稿では,最先端のAI合成聴覚コンテンツを識別するための総合的な評価を目的とした,AI-Audio Detection FrameworkおよびBenchmarkであるSONARを紹介する。
SONARには、主要なTSプロバイダや最先端TSモデルを含む9つのオーディオ合成プラットフォームから得られた、新たな評価データセットが含まれている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
大規模な実験を通じて,既存の検出手法の一般化限界を明らかにし,基礎モデルがモデルサイズや事前学習データのスケールや品質に起因して,より強力な一般化能力を示すことを示す。
さらに,特定のエンティティや個人に対してパーソナライズされた検出システムなど,カスタマイズされたアプリケーションの可能性を強調し,汎用性を向上させるための数発の微調整の有効性と効率について検討する。
コードとデータセットはhttps://github.com/Jessegator/SONAR.comで入手できる。
関連論文リスト
- Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features [0.353122873734926]
模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。
近年、研究者は社会言語学の専門家と共同で、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。
EDLFによる音声データの従来の特徴と一般的な特徴を拡張した場合,いくつかのディープフェイク検出アルゴリズムが改良されていることが確認された。
論文 参考訳(メタデータ) (2024-09-09T19:47:57Z) - On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - All-for-One and One-For-All: Deep learning-based feature fusion for
Synthetic Speech Detection [18.429817510387473]
近年のディープラーニングとコンピュータビジョンの進歩により、マルチメディアコンテンツの合成と偽造がこれまで以上に容易にできるようになった。
本稿では,合成音声検出タスクについて文献で提案する3つの特徴セットについて考察し,それらと融合するモデルを提案する。
このシステムは異なるシナリオとデータセットでテストされ、反法医学的攻撃に対する堅牢性とその一般化能力を証明する。
論文 参考訳(メタデータ) (2023-07-28T13:50:25Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。