論文の概要: Hierarchical Deep Fusion Framework for Multi-dimensional Facial Forgery Detection - The 2024 Global Deepfake Image Detection Challenge
- arxiv url: http://arxiv.org/abs/2509.13107v1
- Date: Tue, 16 Sep 2025 14:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.119615
- Title: Hierarchical Deep Fusion Framework for Multi-dimensional Facial Forgery Detection - The 2024 Global Deepfake Image Detection Challenge
- Title(参考訳): 多次元顔偽造検出のための階層型ディープフュージョンフレームワーク -2024年世界ディープフェイク画像検出チャレンジ-
- Authors: Kohou Wang, Huan Hu, Xiang Liu, Zezhou Chen, Ping Chen, Zhaoxiang Liu, Shiguo Lian,
- Abstract要約: 本稿では,ハイパフォーマンス顔偽造検出のためのアンサンブルに基づくディープラーニングアーキテクチャである階層型ディープフュージョンフレームワーク(HDFF)を紹介する。
我々のフレームワークは,MultiFFDIデータセット上の多段階プロセスを通じて細部まで微調整された,Swin-MLP,CoAtNet,EfficientNetV2,DaViTの4種類の事前学習サブモデルを統合する。
このアプローチは、競技会のプライベートリーダーボードで0.96852で最終スコアを獲得し、184チーム中20位を獲得した。
- 参考スコア(独自算出の注目度): 11.038418041244926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The proliferation of sophisticated deepfake technology poses significant challenges to digital security and authenticity. Detecting these forgeries, especially across a wide spectrum of manipulation techniques, requires robust and generalized models. This paper introduces the Hierarchical Deep Fusion Framework (HDFF), an ensemble-based deep learning architecture designed for high-performance facial forgery detection. Our framework integrates four diverse pre-trained sub-models, Swin-MLP, CoAtNet, EfficientNetV2, and DaViT, which are meticulously fine-tuned through a multi-stage process on the MultiFFDI dataset. By concatenating the feature representations from these specialized models and training a final classifier layer, HDFF effectively leverages their collective strengths. This approach achieved a final score of 0.96852 on the competition's private leaderboard, securing the 20th position out of 184 teams, demonstrating the efficacy of hierarchical fusion for complex image classification tasks.
- Abstract(参考訳): 高度なディープフェイク技術の普及は、デジタルセキュリティと認証に重大な課題をもたらす。
これらの偽造品の検出は、特に広範囲の操作技術において、堅牢で一般化されたモデルを必要とする。
本稿では,ハイパフォーマンス顔偽造検出のためのアンサンブルに基づくディープラーニングアーキテクチャである階層型ディープフュージョンフレームワーク(HDFF)を紹介する。
我々のフレームワークは,MultiFFDIデータセット上の多段階プロセスを通じて細部まで微調整された,Swin-MLP,CoAtNet,EfficientNetV2,DaViTの4種類の事前学習サブモデルを統合する。
これらの特殊モデルから特徴表現を結合し、最終分類器層を訓練することにより、HDFFはそれらの集合的強みを効果的に活用する。
このアプローチは、コンペティションのプライベートリーダーボードで0.96852の最終スコアを獲得し、184チーム中20位を確保し、複雑な画像分類タスクにおける階層的融合の有効性を実証した。
関連論文リスト
- DFCon: Attention-Driven Supervised Contrastive Learning for Robust Deepfake Detection [0.3818645814949463]
本報告では, IEEE SP Cup 2025: Deepfake Face Detection in the Wild (DFWild-Cup) へのアプローチについて述べる。
提案手法では,MaxViT,CoAtNet,EVA-02などの高度なバックボーンモデルを用いて,教師付きコントラスト損失を用いて微調整を行い,特徴分離を向上させる。
提案システムは,実環境下でのディープフェイク検出の課題に対処し,検証データセットで95.83%の精度を実現する。
論文 参考訳(メタデータ) (2025-01-28T04:46:50Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - Semantics-Oriented Multitask Learning for DeepFake Detection: A Joint Embedding Approach [77.65459419417533]
本稿では,セマンティクス指向のDeepFake検出タスクをサポートする自動データセット拡張手法を提案する。
また,顔画像とラベル(テキストによる記述で示される)を併用して予測を行う。
提案手法は,DeepFake検出の一般化性を向上し,人間の理解可能な説明を提供することで,ある程度のモデル解釈を行う。
論文 参考訳(メタデータ) (2024-08-29T07:11:50Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Domain Generalization via Ensemble Stacking for Face Presentation Attack
Detection [4.61143637299349]
顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。
本研究では,合成データ生成と深層アンサンブル学習を組み合わせた包括的ソリューションを提案する。
4つのデータセットに対する実験結果は、3つのベンチマークデータセット上でのHTER(low half total error rate)を示す。
論文 参考訳(メタデータ) (2023-01-05T16:44:36Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。