論文の概要: Retrieval-Augmented Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2404.13892v2
- Date: Tue, 23 Apr 2024 04:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 12:43:32.170296
- Title: Retrieval-Augmented Audio Deepfake Detection
- Title(参考訳): Retrieval-Augmented Audio Deepfake Detection
- Authors: Zuheng Kang, Yayun He, Botao Zhao, Xiaoyang Qu, Junqing Peng, Jing Xiao, Jianzong Wang,
- Abstract要約: そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
- 参考スコア(独自算出の注目度): 27.13059118273849
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With recent advances in speech synthesis including text-to-speech (TTS) and voice conversion (VC) systems enabling the generation of ultra-realistic audio deepfakes, there is growing concern about their potential misuse. However, most deepfake (DF) detection methods rely solely on the fuzzy knowledge learned by a single model, resulting in performance bottlenecks and transparency issues. Inspired by retrieval-augmented generation (RAG), we propose a retrieval-augmented detection (RAD) framework that augments test samples with similar retrieved samples for enhanced detection. We also extend the multi-fusion attentive classifier to integrate it with our proposed RAD framework. Extensive experiments show the superior performance of the proposed RAD framework over baseline methods, achieving state-of-the-art results on the ASVspoof 2021 DF set and competitive results on the 2019 and 2021 LA sets. Further sample analysis indicates that the retriever consistently retrieves samples mostly from the same speaker with acoustic characteristics highly consistent with the query audio, thereby improving detection performance.
- Abstract(参考訳): テキスト音声合成(TTS)や音声変換(VC)システムなどの音声合成の進歩により、超現実的なオーディオディープフェイクの生成が可能になったため、その潜在的な誤用に対する懸念が高まっている。
しかし、ほとんどのディープフェイク(DF)検出方法は単一のモデルで学んだファジィな知識にのみ依存しており、結果としてパフォーマンスのボトルネックと透明性の問題が発生する。
検索拡張生成(RAG)に着想を得て,検索拡張検出(RAD)フレームワークを提案する。
また、マルチフュージョン注意分類器を拡張し、提案したRADフレームワークと統合する。
ASVspoof 2021 DF セットの最先端結果と2019 と 2021 LA セットの競争結果の達成により,提案した RAD フレームワークのベースライン法よりも優れた性能を示した。
さらなるサンプル分析により、検索者は、クエリ音声と高度に整合した音響特性を持つ同一話者から、ほぼ一貫してサンプルを検索し、検出性能を向上させることが示唆された。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Targeted Augmented Data for Audio Deepfake Detection [11.671275975119089]
そこで本研究では,モデルの決定境界をターゲットとした音声疑似フェイク生成手法を提案する。
敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。
論文 参考訳(メタデータ) (2024-07-10T12:31:53Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Improved DeepFake Detection Using Whisper Features [2.846767128062884]
DF検出フロントエンドとしてのWhisper自動音声認識モデルの影響について検討する。
本稿では,Whisperベースの機能を用いることで,各モデルの検出精度が向上し,Equal Error Rateを21%削減することで,In-The-Wildデータセットの最近の結果を上回っていることを示す。
論文 参考訳(メタデータ) (2023-06-02T10:34:05Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Leveraging Domain Features for Detecting Adversarial Attacks Against
Deep Speech Recognition in Noise [18.19207291891767]
ディープASRシステムに対する敵攻撃は非常に成功している。
この作業では、フィルタバンクベースの機能を活用して、攻撃特性をより正確に把握し、検出を改善する。
逆フィルタバンクの機能は、クリーンな環境とノイズの多い環境の両方でよく機能する。
論文 参考訳(メタデータ) (2022-11-03T07:25:45Z) - ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。