論文の概要: Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning
- arxiv url: http://arxiv.org/abs/2511.18104v1
- Date: Sat, 22 Nov 2025 16:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.630293
- Title: Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning
- Title(参考訳): 統一型マルチモーダルフォージェリー学習による拡散生成ビデオ検出
- Authors: Xiaohong Liu, Xiufeng Song, Huayu Zheng, Lei Bai, Xiaoming Liu, Guangtao Zhai,
- Abstract要約: 既存の手法は主に画像レベルの偽造検出に重点を置いており、一般的なビデオレベルの偽造検出はほとんど探索されていない。
本稿では,拡散生成ビデオの検出に特化して設計したMM-Det++という統合マルチモーダル検出手法を提案する。
- 参考スコア(独自算出の注目度): 61.3737746844896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of videos generated by diffusion models has raised increasing concerns about information security, highlighting the urgent need for reliable detection of synthetic media. Existing methods primarily focus on image-level forgery detection, leaving generic video-level forgery detection largely underexplored. To advance video forensics, we propose a consolidated multimodal detection algorithm, named MM-Det++, specifically designed for detecting diffusion-generated videos. Our approach consists of two innovative branches and a Unified Multimodal Learning (UML) module. Specifically, the Spatio-Temporal (ST) branch employs a novel Frame-Centric Vision Transformer (FC-ViT) to aggregate spatio-temporal information for detecting diffusion-generated videos, where the FC-tokens enable the capture of holistic forgery traces from each video frame. In parallel, the Multimodal (MM) branch adopts a learnable reasoning paradigm to acquire Multimodal Forgery Representation (MFR) by harnessing the powerful comprehension and reasoning capabilities of Multimodal Large Language Models (MLLMs), which discerns the forgery traces from a flexible semantic perspective. To integrate multimodal representations into a coherent space, a UML module is introduced to consolidate the generalization ability of MM-Det++. In addition, we also establish a large-scale and comprehensive Diffusion Video Forensics (DVF) dataset to advance research in video forgery detection. Extensive experiments demonstrate the superiority of MM-Det++ and highlight the effectiveness of unified multimodal forgery learning in detecting diffusion-generated videos.
- Abstract(参考訳): 拡散モデルによって生成されたビデオの拡散は、情報セキュリティに対する懸念を高め、合成メディアの確実な検出を急務に必要とすることを強調している。
既存の手法は主に画像レベルの偽造検出に重点を置いており、一般的なビデオレベルの偽造検出はほとんど探索されていない。
本稿では,拡散生成ビデオの検出に特化して設計されたMM-Det++という統合マルチモーダル検出アルゴリズムを提案する。
このアプローチは、2つの革新的なブランチとUnified Multimodal Learning (UML)モジュールで構成されています。
具体的には、新しいフレーム中心視変換器(FC-ViT)を用いて拡散生成ビデオを検出する時空間情報を集約し、FC-tokenは各ビデオフレームから全体的偽の痕跡を捕捉する。
並行して、Multimodal (MM) ブランチは、Multimodal Forgery Representation (MFR) を取得するための学習可能な推論パラダイムを採用する。
マルチモーダル表現をコヒーレントな空間に統合するために、MM-Det++の一般化能力を統合するためにUMLモジュールが導入された。
さらに,ビデオ偽造検出の研究を進めるために,大規模かつ包括的拡散ビデオフォレシクス(DVF)データセットを構築した。
MM-Det++の優位性を実証し,拡散生成ビデオの検出におけるマルチモーダル・フォージェリ学習の有効性を強調した。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection [44.55891118519547]
本稿では,拡散生成コンテンツを検出するためのMulti-Mod-al Detection(MM-Det)という革新的なアルゴリズムを提案する。
MM-Detは、Multi-Modal Forgery Representation(MMFR)を生成することで、LMM(Large Multi-Modal Models)の深い総合的能力を利用する
MM-Detによるビデオフォサイシクス(DVF)の最先端性能の実現
論文 参考訳(メタデータ) (2024-10-31T04:20:47Z) - Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on
Facial Action Unit Detection [12.509298933267225]
本稿では,MCM(Multimodal Channel-Mixing)と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。
このアプローチは、Channel-Mixingモジュールを統合して、5つのうち2つをランダムにドロップする、初期の融合設定に従っている。
このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能も促進し、ロバストな特徴学習をもたらす。
論文 参考訳(メタデータ) (2022-09-25T15:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。