論文の概要: MFAAN: Unveiling Audio Deepfakes with a Multi-Feature Authenticity
Network
- arxiv url: http://arxiv.org/abs/2311.03509v1
- Date: Mon, 6 Nov 2023 20:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:51:08.645499
- Title: MFAAN: Unveiling Audio Deepfakes with a Multi-Feature Authenticity
Network
- Title(参考訳): mfaan:マルチ機能認証ネットワークでオーディオディープフェイクを発表
- Authors: Karthik Sivarama Krishnan, Koushik Sivarama Krishnan
- Abstract要約: 本稿では,Multi-Feature Audio Authenticity Network (MFAAN)を紹介する。
MFAANは、Mel- frequency cepstral coefficients (MFCC)を含む様々な音響表現の強度を利用するために設計された複数の並列パスを組み込んでいる。
2つのベンチマークデータセットである'In-the-Wild'オーディオディープフェイクデータとThe Fake-or-Realデータセットに対するMFAANの予備評価は、それぞれ98.93%と94.47%の精度で、その優れた性能を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In the contemporary digital age, the proliferation of deepfakes presents a
formidable challenge to the sanctity of information dissemination. Audio
deepfakes, in particular, can be deceptively realistic, posing significant
risks in misinformation campaigns. To address this threat, we introduce the
Multi-Feature Audio Authenticity Network (MFAAN), an advanced architecture
tailored for the detection of fabricated audio content. MFAAN incorporates
multiple parallel paths designed to harness the strengths of different audio
representations, including Mel-frequency cepstral coefficients (MFCC),
linear-frequency cepstral coefficients (LFCC), and Chroma Short Time Fourier
Transform (Chroma-STFT). By synergistically fusing these features, MFAAN
achieves a nuanced understanding of audio content, facilitating robust
differentiation between genuine and manipulated recordings. Preliminary
evaluations of MFAAN on two benchmark datasets, 'In-the-Wild' Audio Deepfake
Data and The Fake-or-Real Dataset, demonstrate its superior performance,
achieving accuracies of 98.93% and 94.47% respectively. Such results not only
underscore the efficacy of MFAAN but also highlight its potential as a pivotal
tool in the ongoing battle against deepfake audio content.
- Abstract(参考訳): 現代のデジタル時代には、ディープフェイクの拡散は情報拡散の正当性に重大な挑戦をもたらす。
特にオーディオのディープフェイクは、誤報キャンペーンにおいて重大なリスクを生じさせるような現実的だ。
この脅威に対処するために,我々は,製作された音声コンテンツを検出するための高度アーキテクチャであるmfaan(multi-feature audio authenticity network)を紹介する。
MFAANは、メル周波数ケプストラム係数(MFCC)、線形周波数ケプストラム係数(LFCC)、クロマ短時間フーリエ変換(Chroma-STFT)など、様々な音響表現の強度を活用するために設計された複数の並列パスを組み込んでいる。
これらの特徴を相乗的に融合させることで、MFAANは音声コンテンツの微妙な理解を達成し、真の録音と操作された録音の堅牢な区別を促進する。
2つのベンチマークデータセットである'In-the-Wild' Audio Deepfake DataとThe Fake-or-Real Datasetに対するMFAANの予備的な評価は、それぞれ98.93%と94.47%の精度を達成した。
このような結果は、MFAANの有効性だけでなく、ディープフェイクオーディオコンテンツとの戦いにおける重要なツールとしての可能性を強調している。
関連論文リスト
- A Multimodal Framework for Deepfake Detection [0.0]
AIを使って合成メディアを作るDeepfakesは、ビデオやオーディオを説得力を持って修正して、現実を正しく表現する。
我々の研究は、革新的なマルチモーダルアプローチを通じて、ディープフェイクの重要な問題に対処する。
枠組みは視覚的・聴覚的分析を併用し,精度は94%であった。
論文 参考訳(メタデータ) (2024-10-04T14:59:10Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio
Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。
本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文 参考訳(メタデータ) (2023-09-12T18:37:05Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。