Fugu-MT 論文翻訳(概要): Retrieval-Augmented Audio Deepfake Detection

論文の概要: Retrieval-Augmented Audio Deepfake Detection

arxiv url: http://arxiv.org/abs/2404.13892v1
Date: Mon, 22 Apr 2024 05:46:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 15:05:12.962477
Title: Retrieval-Augmented Audio Deepfake Detection
Title（参考訳）: Retrieval-Augmented Audio Deepfake Detection
Authors: Zuheng Kang, Yayun He, Botao Zhao, Xiaoyang Qu, Junqing Peng, Jing Xiao, Jianzong Wang,
Abstract要約: そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
参考スコア（独自算出の注目度）: 27.13059118273849
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With recent advances in speech synthesis including text-to-speech (TTS) and voice conversion (VC) systems enabling the generation of ultra-realistic audio deepfakes, there is growing concern about their potential misuse. However, most deepfake (DF) detection methods rely solely on the fuzzy knowledge learned by a single model, resulting in performance bottlenecks and transparency issues. Inspired by retrieval-augmented generation (RAG), we propose a retrieval-augmented detection (RAD) framework that augments test samples with similar retrieved samples for enhanced detection. We also extend the multi-fusion attentive classifier to integrate it with our proposed RAD framework. Extensive experiments show the superior performance of the proposed RAD framework over baseline methods, achieving state-of-the-art results on the ASVspoof 2021 DF set and competitive results on the 2019 and 2021 LA sets. Further sample analysis indicates that the retriever consistently retrieves samples mostly from the same speaker with acoustic characteristics highly consistent with the query audio, thereby improving detection performance.
Abstract（参考訳）: テキスト音声合成(TTS)や音声変換(VC)システムなどの音声合成の進歩により、超現実的なオーディオディープフェイクの生成が可能になったため、その潜在的な誤用に対する懸念が高まっている。しかし、ほとんどのディープフェイク(DF)検出方法は単一のモデルで学んだファジィな知識にのみ依存しており、結果としてパフォーマンスのボトルネックと透明性の問題が発生する。検索拡張生成(RAG)に着想を得て,検索拡張検出(RAD)フレームワークを提案する。また、マルチフュージョン注意分類器を拡張し、提案したRADフレームワークと統合する。 ASVspoof 2021 DF セットの最先端結果と2019 と 2021 LA セットの競争結果の達成により,提案した RAD フレームワークのベースライン法よりも優れた性能を示した。さらなるサンプル分析により、検索者は、クエリ音声と高度に整合した音響特性を持つ同一話者から、ほぼ一貫してサンプルを検索し、検出性能を向上させることが示唆された。

関連論文リスト

Audio Deepfake Detection in the Age of Advanced Text-to-Speech models [0.0]
テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
論文参考訳（メタデータ） (2026-01-28T11:39:40Z)
Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems [26.00617832033757]
我々は,多様なボナフィドデータセットを組み込んだ新しい評価フレームワークであるボナフィドクロステストを提案し,よりバランスの取れた評価のためにEERを集約する。 9種類のボナファイド音声タイプに150以上のシンセサイザーをベンチマークし、さらなる研究を促進するために新しいデータセットをリリースする。
論文参考訳（メタデータ） (2025-09-11T07:20:18Z)
Rehearsal with Auxiliary-Informed Sampling for Audio Deepfake Detection [7.402342914903391]
Rehearsal with Auxiliary-Informed Smpling (RAIS)は、オーディオディープフェイク検出のためのリハーサルベースのCLアプローチである。 RAISはラベル生成ネットワークを使用して補助ラベルを生成し、メモリバッファの多様なサンプル選択を導く。大規模な実験では、RAISは最先端の手法よりも優れており、5つの経験で平均1.953%のEER(Equal Error Rate)を達成する。
論文参考訳（メタデータ） (2025-05-30T11:40:50Z)
Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2025-05-29T07:47:48Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。 FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文参考訳（メタデータ） (2025-04-22T07:40:35Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Targeted Augmented Data for Audio Deepfake Detection [11.671275975119089]
そこで本研究では,モデルの決定境界をターゲットとした音声疑似フェイク生成手法を提案する。敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。
論文参考訳（メタデータ） (2024-07-10T12:31:53Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。 DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文参考訳（メタデータ） (2023-10-18T17:07:05Z)
Improved DeepFake Detection Using Whisper Features [2.846767128062884]
DF検出フロントエンドとしてのWhisper自動音声認識モデルの影響について検討する。本稿では,Whisperベースの機能を用いることで,各モデルの検出精度が向上し,Equal Error Rateを21%削減することで,In-The-Wildデータセットの最近の結果を上回っていることを示す。
論文参考訳（メタデータ） (2023-06-02T10:34:05Z)
Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。 SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文参考訳（メタデータ） (2023-06-01T19:04:17Z)
Leveraging Domain Features for Detecting Adversarial Attacks Against Deep Speech Recognition in Noise [18.19207291891767]
ディープASRシステムに対する敵攻撃は非常に成功している。この作業では、フィルタバンクベースの機能を活用して、攻撃特性をより正確に把握し、検出を改善する。逆フィルタバンクの機能は、クリーンな環境とノイズの多い環境の両方でよく機能する。
論文参考訳（メタデータ） (2022-11-03T07:25:45Z)
ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文参考訳（メタデータ） (2022-09-14T05:53:37Z)
Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文参考訳（メタデータ） (2022-08-20T06:46:55Z)
BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文参考訳（メタデータ） (2022-06-24T02:26:40Z)
Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文参考訳（メタデータ） (2021-06-11T13:03:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。