論文の概要: Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection
- arxiv url: http://arxiv.org/abs/2406.13384v1
- Date: Wed, 19 Jun 2024 09:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 20:22:37.748329
- Title: Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection
- Title(参考訳): ガムベルソフトマックス推定器を用いたオーディオ・ビジュアルディープフェイク検出のためのバイモーダルニューラルネットワーク探索
- Authors: Aravinda Reddy PN, Raghavendra Ramachandra, Krothapalli Sreenivasa Rao, Pabitra Mitra, Vinod Rathod,
- Abstract要約: マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
- 参考スコア(独自算出の注目度): 6.367999777464464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfakes are a major security risk for biometric authentication. This technology creates realistic fake videos that can impersonate real people, fooling systems that rely on facial features and voice patterns for identification. Existing multimodal deepfake detectors rely on conventional fusion methods, such as majority rule and ensemble voting, which often struggle to adapt to changing data characteristics and complex patterns. In this paper, we introduce the Straight-through Gumbel-Softmax (STGS) framework, offering a comprehensive approach to search multimodal fusion model architectures. Using a two-level search approach, the framework optimizes the network architecture, parameters, and performance. Initially, crucial features were efficiently identified from backbone networks, whereas within the cell structure, a weighted fusion operation integrated information from various sources. An architecture that maximizes the classification performance is derived by varying parameters such as temperature and sampling time. The experimental results on the FakeAVCeleb and SWAN-DF datasets demonstrated an impressive AUC value 94.4\% achieved with minimal model parameters.
- Abstract(参考訳): ディープフェイクは生体認証の大きなセキュリティリスクである。
この技術は、現実の人間を偽造できるリアルなフェイクビデオを作り、顔の特徴と識別のための音声パターンに依存しているシステムを騙す。
既存のマルチモーダルディープフェイク検出器は、多数決ルールやアンサンブル投票のような従来の融合法に依存しており、しばしばデータ特性や複雑なパターンの変化に適応するのに苦労する。
本稿では,Straight-through Gumbel-Softmax (STGS) フレームワークを提案する。
2段階の探索手法を用いて、このフレームワークはネットワークアーキテクチャ、パラメータ、パフォーマンスを最適化する。
当初、バックボーンネットワークから重要な特徴を効果的に同定したが、細胞構造では、様々なソースから重み付けされた融合操作が情報を統合した。
分類性能を最大化するアーキテクチャは、温度やサンプリング時間などのパラメータによって導出される。
FakeAVCelebとSWAN-DFデータセットの実験結果は、最小のモデルパラメータでAUC値94.4\%が達成された。
関連論文リスト
- Gumbel Rao Monte Carlo based Bi-Modal Neural Architecture Search for Audio-Visual Deepfake Detection [2.711788614039839]
ディープフェイクは、高度にリアルな合成メディアを生成することによって、生体認証システムに重大な脅威をもたらす。
既存のマルチモーダルディープフェイク検出器は、しばしば多様なデータに適応するのに苦労し、単純な融合法に依存している。
本稿では,Gumbel-Rao Monte Carloサンプリングを用いてマルチモーダル融合を最適化する新しいアーキテクチャ探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-09T04:37:35Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - EM-DARTS: Hierarchical Differentiable Architecture Search for Eye Movement Recognition [54.99121380536659]
眼球運動バイオメトリックスは、高い安全性の識別により注目されている。
深層学習(DL)モデルは近年,眼球運動認識に成功している。
DLアーキテクチャはまだ人間の事前知識によって決定されている。
眼球運動認識のためのDLアーキテクチャを自動設計する階層的微分可能なアーキテクチャ探索アルゴリズムEM-DARTSを提案する。
論文 参考訳(メタデータ) (2024-09-22T13:11:08Z) - A Noise and Edge extraction-based dual-branch method for Shallowfake and Deepfake Localization [15.647035299476894]
従来のCNN機能と手動で設計した特徴雑音を統合したデュアルブランチモデルを開発した。
このモデルは比較において優れており、既存の最先端モデル(SoTA)よりも容易に優れている。
論文 参考訳(メタデータ) (2024-09-02T02:18:34Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos [9.209808258321559]
本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Domain Generalization via Ensemble Stacking for Face Presentation Attack
Detection [4.61143637299349]
顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。
本研究では,合成データ生成と深層アンサンブル学習を組み合わせた包括的ソリューションを提案する。
4つのデータセットに対する実験結果は、3つのベンチマークデータセット上でのHTER(low half total error rate)を示す。
論文 参考訳(メタデータ) (2023-01-05T16:44:36Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。