論文の概要: Zero-Shot to Zero-Lies: Detecting Bengali Deepfake Audio through Transfer Learning
- arxiv url: http://arxiv.org/abs/2512.21702v1
- Date: Thu, 25 Dec 2025 14:53:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:58:12.327162
- Title: Zero-Shot to Zero-Lies: Detecting Bengali Deepfake Audio through Transfer Learning
- Title(参考訳): Zero-Shot to Zero-Lies:伝達学習によるベンガルディープフェイク検出
- Authors: Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Zahid Hossain, Md. Kamrozzaman Bhuiyan, Farhad Uz Zaman,
- Abstract要約: バングラフェイクデータセットを用いたベンガル語のディープフェイクの自動検出について検討した。
我々は,いくつかの事前学習モデルを用いてゼロショット推論を評価する。その中には,WAv2Vec2-XLSR-53,Whisper,PANNsCNN14,WAvLM,Audio Spectrogram Transformerなどがある。
次に、ベンガルのディープフェイク検出に複数のアーキテクチャを組み込む。その中には、Wav2Vec2-Base、LCNN、LCNN-Attention、ResNet18、ViT-B16、CNN-BiLSTMが含まれる。
- 参考スコア(独自算出の注目度): 0.2446672595462589
- License:
- Abstract: The rapid growth of speech synthesis and voice conversion systems has made deepfake audio a major security concern. Bengali deepfake detection remains largely unexplored. In this work, we study automatic detection of Bengali audio deepfakes using the BanglaFake dataset. We evaluate zeroshot inference with several pretrained models. These include Wav2Vec2-XLSR-53, Whisper, PANNsCNN14, WavLM and Audio Spectrogram Transformer. Zero-shot results show limited detection ability. The best model, Wav2Vec2-XLSR-53, achieves 53.80% accuracy, 56.60% AUC and 46.20% EER. We then f ine-tune multiple architectures for Bengali deepfake detection. These include Wav2Vec2-Base, LCNN, LCNN-Attention, ResNet18, ViT-B16 and CNN-BiLSTM. Fine-tuned models show strong performance gains. ResNet18 achieves the highest accuracy of 79.17%, F1 score of 79.12%, AUC of 84.37% and EER of 24.35%. Experimental results confirm that fine-tuning significantly improves performance over zero-shot inference. This study provides the first systematic benchmark of Bengali deepfake audio detection. It highlights the effectiveness of f ine-tuned deep learning models for this low-resource language.
- Abstract(参考訳): 音声合成と音声変換システムの急速な成長により、ディープフェイク音声は大きなセキュリティ上の問題となっている。
ベンガルの深度検出は未発見のままである。
本研究では,BanglaFakeデータセットを用いてベンガル語のディープフェイクの自動検出を行う。
いくつかの事前学習モデルを用いてゼロショット推論を評価する。
Wav2Vec2-XLSR-53、Whisper、PANNsCNN14、WavLM、Audio Spectrogram Transformerなどがある。
ゼロショットの結果は検出能力に制限がある。
最も優れたモデルであるWav2Vec2-XLSR-53は53.80%の精度、56.60%のAUC、46.20%のEERを達成している。
次に、ベンガルのディープフェイク検出のために複数のアーキテクチャをインチューンする。
Wav2Vec2-Base、LCNN、LCNN-Attention、ResNet18、ViT-B16、CNN-BiLSTMなどである。
微調整されたモデルでは、パフォーマンスが向上する。
ResNet18の最高精度は79.17%、F1スコアは79.12%、AUCは84.37%、EERは24.35%である。
実験結果から、微調整によりゼロショット推論よりも性能が大幅に向上することが確認された。
本研究は,ベンガルのディープフェイク音声検出に関する最初の体系的ベンチマークを提供する。
この低リソース言語に対するf ineでチューニングされたディープラーニングモデルの有効性を強調します。
関連論文リスト
- Contrastive and Transfer Learning for Effective Audio Fingerprinting through a Real-World Evaluation Protocol [1.8842532732272859]
歌の識別の最近の進歩は、ディープニューラルネットワークを利用して生波形から直接コンパクトな音声指紋を学習している。
これらの手法は制御条件下では良好に動作しますが、ノイズの多い環境でモバイルデバイスを介してオーディオをキャプチャする現実のシナリオでは、その精度は大幅に低下します。
我々は同じ音声の3つの録音を生成し、それぞれが、モバイルデバイスのマイクを使って撮影されるノイズレベルを増大させる。
このプロトコルでは,2つの最新のCNNベースモデルに対して,以前報告したベンチマークと比較すると,大幅な性能低下がみられた。
論文 参考訳(メタデータ) (2025-07-08T15:13:26Z) - BanglaFake: Constructing and Evaluating a Specialized Bengali Deepfake Audio Dataset [0.0]
このデータセットは、12,260の実際の発話と13,260のディープフェイク発話を備えたBengali Deepfake Audioデータセットである。
合成音声は、SOTA Text-to-Speech(TTS)モデルを用いて生成され、高い自然性と品質が保証される。
30の母語話者の平均オピニオンスコア(MOS)は、3.40(自然性)と4.01(知性)のロバストMOSを示している
論文 参考訳(メタデータ) (2025-05-16T05:42:25Z) - End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024 [6.865766644176186]
我々は,2024年にソーシャルメディアとディープフェイク検出プラットフォームユーザから収集されたワイヤ内ディープフェイクからなる新しいディープフェイク検出ベンチマークであるDeepfake-Eval-2024を紹介する。
ベンチマークには、52の異なる言語で88の異なるウェブサイトからさまざまなメディアコンテンツが含まれている。
その結果,Deepfake-Eval-2024で評価すると,オープンソースのDeepfake検出モデルの性能は急激に低下することがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:33:22Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Audio Deepfake Attribution: An Initial Dataset and Investigation [41.62487394875349]
我々は、Audio Deepfake Attribution (ADA)と呼ばれるオーディオ生成ツールの属性に対する最初のディープフェイクオーディオデータセットを設計する。
オープンセットオーディオディープフェイク属性(OSADA)のためのクラス・マルチセンター学習(CRML)手法を提案する。
実験の結果,CRML法は実世界のシナリオにおけるオープンセットリスクに効果的に対処できることが示された。
論文 参考訳(メタデータ) (2022-08-21T05:15:40Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。