論文の概要: HOLA: Enhancing Audio-visual Deepfake Detection via Hierarchical Contextual Aggregations and Efficient Pre-training
- arxiv url: http://arxiv.org/abs/2507.22781v1
- Date: Wed, 30 Jul 2025 15:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.296606
- Title: HOLA: Enhancing Audio-visual Deepfake Detection via Hierarchical Contextual Aggregations and Efficient Pre-training
- Title(参考訳): HOLA:階層的コンテキストアグリゲーションと効率的な事前学習による視覚的ディープフェイク検出の強化
- Authors: Xuecheng Wu, Danlei Huang, Heli Sun, Xinyi Yin, Yifan Wang, Hao Wang, Jia Zhang, Fei Wang, Peihao Guo, Suyu Xing, Junxiao Xue, Liang He,
- Abstract要約: 我々は,20251Mディープフェイク検出チャレンジのビデオレベルディープフェイク検出トラックのソリューションであるHOLAを提案する。
一般領域における大規模事前学習の成功に触発されて,マルチモーダルビデオレベルのディープフェイク検出において,まず音声視覚による自己教師付き事前学習をスケールする。
具体的に言うと、HOLAは、選択的な音声・視覚相互作用のための反復的認識型クロスモーダル学習モジュール、局所的・言語的視点下でのゲートアグリゲーションによる階層的コンテキストモデリング、スケール的・認識型クロスグラニュラルなセマンティック拡張のためのピラミッドライクな精細化モジュールを備えている。
- 参考スコア(独自算出の注目度): 17.005718886553865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in Generative AI have made video-level deepfake detection increasingly challenging, exposing the limitations of current detection techniques. In this paper, we present HOLA, our solution to the Video-Level Deepfake Detection track of 2025 1M-Deepfakes Detection Challenge. Inspired by the success of large-scale pre-training in the general domain, we first scale audio-visual self-supervised pre-training in the multimodal video-level deepfake detection, which leverages our self-built dataset of 1.81M samples, thereby leading to a unified two-stage framework. To be specific, HOLA features an iterative-aware cross-modal learning module for selective audio-visual interactions, hierarchical contextual modeling with gated aggregations under the local-global perspective, and a pyramid-like refiner for scale-aware cross-grained semantic enhancements. Moreover, we propose the pseudo supervised singal injection strategy to further boost model performance. Extensive experiments across expert models and MLLMs impressivly demonstrate the effectiveness of our proposed HOLA. We also conduct a series of ablation studies to explore the crucial design factors of our introduced components. Remarkably, our HOLA ranks 1st, outperforming the second by 0.0476 AUC on the TestA set.
- Abstract(参考訳): Generative AIの進歩により、ビデオレベルのディープフェイク検出がますます難しくなり、現在の検出技術の限界が明らかになってきた。
本稿では,2025年1Mディープフェイク検出チャレンジにおけるビデオレベルディープフェイク検出の方法であるHOLAについて述べる。
一般領域における大規模事前学習の成功に触発されて、私たちはまず、マルチモーダルビデオレベルのディープフェイク検出において、オーディオ視覚による自己教師付き事前学習をスケールしました。
具体的に言うと、HOLAは、選択的な音声・視覚相互作用のための反復的認識型クロスモーダル学習モジュール、局所的・言語的視点下でのゲートアグリゲーションによる階層的コンテキストモデリング、スケール的・認識型クロスグラニュラルなセマンティック拡張のためのピラミッドライクな精細化モジュールを備えている。
さらに,モデル性能をさらに向上させるために,擬似教師付き音声注入方式を提案する。
専門家モデルとMLLMの広範な実験により,提案したHOLAの有効性が実証された。
また、導入したコンポーネントの重要な設計要因を探るため、一連のアブレーション研究も行っています。
注目すべきは、私たちのHOLAが第1位であり、TestAセットで0.0476 AUCを上回っていることです。
関連論文リスト
- X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
入力摂動によってモデル予測を操作するモデル再プログラミングパラダイムにより,本手法はトレーニング済みのVLMモデルを再プログラムすることができる。
いくつかの人気のあるベンチマークデータセットの実験では、ディープフェイク検出のクロスデータセットとクロスマニピュレーションのパフォーマンスが大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2024-09-04T12:46:30Z) - Towards More General Video-based Deepfake Detection through Facial Component Guided Adaptation for Foundation Model [16.69101880602321]
一般化ビデオに基づくDeepfake検出のためのサイドネットワークベースのデコーダを提案する。
また、空間学習の一般化性を高めるために、FCG(Facial Component Guidance)を導入する。
提案手法は,Deepfakeデータセットに挑戦する上で有望な一般化性を示す。
論文 参考訳(メタデータ) (2024-04-08T14:58:52Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。