論文の概要: AVT2-DWF: Improving Deepfake Detection with Audio-Visual Fusion and Dynamic Weighting Strategies
- arxiv url: http://arxiv.org/abs/2403.14974v1
- Date: Fri, 22 Mar 2024 06:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:27:45.631659
- Title: AVT2-DWF: Improving Deepfake Detection with Audio-Visual Fusion and Dynamic Weighting Strategies
- Title(参考訳): AVT2-DWF:オーディオ・ビジュアルフュージョンと動的重み付けによるディープフェイク検出の改善
- Authors: Rui Wang, Dengpan Ye, Long Tang, Yunming Zhang, Jiacheng Deng,
- Abstract要約: AVT2-DWFは、イントラモーダルとクロスモーダルの両方のフォージェリーキューを増幅し、検出能力を向上することを目的としている。
AVT2-DWFは、表情の空間的特徴と時間的ダイナミクスの両方を捉えるための二重ステージアプローチを採用している。
DeepfakeTIMIT、FakeAVCeleb、DFDCデータセットの実験は、AVT2-DWFが最先端のパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 8.01792778132834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous improvements of deepfake methods, forgery messages have transitioned from single-modality to multi-modal fusion, posing new challenges for existing forgery detection algorithms. In this paper, we propose AVT2-DWF, the Audio-Visual dual Transformers grounded in Dynamic Weight Fusion, which aims to amplify both intra- and cross-modal forgery cues, thereby enhancing detection capabilities. AVT2-DWF adopts a dual-stage approach to capture both spatial characteristics and temporal dynamics of facial expressions. This is achieved through a face transformer with an n-frame-wise tokenization strategy encoder and an audio transformer encoder. Subsequently, it uses multi-modal conversion with dynamic weight fusion to address the challenge of heterogeneous information fusion between audio and visual modalities. Experiments on DeepfakeTIMIT, FakeAVCeleb, and DFDC datasets indicate that AVT2-DWF achieves state-of-the-art performance intra- and cross-dataset Deepfake detection. Code is available at https://github.com/raining-dev/AVT2-DWF.
- Abstract(参考訳): ディープフェイク法の継続的な改善により、偽メッセージは単一のモダリティからマルチモーダル融合へと移行し、既存の偽メッセージ検出アルゴリズムに新たな課題が生じた。
本稿では,ダイナミックウェイト・フュージョンを基盤としたオーディオ・ビジュアルデュアルトランスフォーマーであるAVT2-DWFを提案する。
AVT2-DWFは、表情の空間的特徴と時間的ダイナミクスの両方を捉えるための二重ステージアプローチを採用している。
これは、nフレーム単位のトークン化戦略エンコーダとオーディオトランスフォーマーエンコーダを備えたフェイストランスフォーマーによって実現される。
その後、動的重み付けによるマルチモーダル変換を用いて、オーディオと視覚の異種情報融合の課題に対処する。
DeepfakeTIMIT、FakeAVCeleb、DFDCデータセットに関する実験は、AVT2-DWFが最先端のDeepfake検出とクロスデータセットのDeepfake検出を実現していることを示している。
コードはhttps://github.com/raining-dev/AVT2-DWFで入手できる。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio
Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。
本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文 参考訳(メタデータ) (2023-09-12T18:37:05Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。