論文の概要: Improved DeepFake Detection Using Whisper Features
- arxiv url: http://arxiv.org/abs/2306.01428v1
- Date: Fri, 2 Jun 2023 10:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:46:51.574268
- Title: Improved DeepFake Detection Using Whisper Features
- Title(参考訳): ささやき機能を用いたディープフェイク検出の改善
- Authors: Piotr Kawa, Marcin Plata, Micha{\l} Czuba, Piotr Szyma\'nski, Piotr
Syga
- Abstract要約: DF検出フロントエンドとしてのWhisper自動音声認識モデルの影響について検討する。
本稿では,Whisperベースの機能を用いることで,各モデルの検出精度が向上し,Equal Error Rateを21%削減することで,In-The-Wildデータセットの最近の結果を上回っていることを示す。
- 参考スコア(独自算出の注目度): 2.846767128062884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With a recent influx of voice generation methods, the threat introduced by
audio DeepFake (DF) is ever-increasing. Several different detection methods
have been presented as a countermeasure. Many methods are based on so-called
front-ends, which, by transforming the raw audio, emphasize features crucial
for assessing the genuineness of the audio sample. Our contribution contains
investigating the influence of the state-of-the-art Whisper automatic speech
recognition model as a DF detection front-end. We compare various combinations
of Whisper and well-established front-ends by training 3 detection models
(LCNN, SpecRNet, and MesoNet) on a widely used ASVspoof 2021 DF dataset and
later evaluating them on the DF In-The-Wild dataset. We show that using
Whisper-based features improves the detection for each model and outperforms
recent results on the In-The-Wild dataset by reducing Equal Error Rate by 21%.
- Abstract(参考訳): 近年の音声生成手法の普及により、オーディオのDeepFake(DF)による脅威はますます増大している。
対策として,様々な検出方法が提案されている。
多くの方法は、いわゆるフロントエンドに基づいており、生のオーディオを変換することで、オーディオサンプルの真正性を評価する上で重要な特徴を強調している。
我々の貢献は、DF検出フロントエンドとしての最先端のWhisper自動音声認識モデルの影響の調査を含む。
我々は、広く使われているASVspoof 2021 DFデータセットで3つの検出モデル(LCNN、SpecRNet、MesoNet)をトレーニングし、その後DF In-The-Wildデータセットで評価することで、Whisperと十分に確立されたフロントエンドの組み合わせを比較した。
そこで本研究では,whisper-based機能を利用することで,各モデルの検出精度が向上し,従来型データセットにおける最近の結果を21%削減した。
関連論文リスト
- I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:21:36Z) - Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection [0.0]
ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - オープンコンディションはスタンドアロンのディープフェイク(bonafide vs spoof)検出タスクで構成される。
我々は、事前訓練されたWavLMをフロントエンドモデルとして利用し、その表現を異なるバックエンド技術でプールする。
本システムでは,0.0937 minDCF,3.42% EER,0.1927 Cllr,0.1375 actDCFを実現している。
論文 参考訳(メタデータ) (2024-09-08T08:54:36Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。