論文の概要: Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning
- arxiv url: http://arxiv.org/abs/2511.18104v1
- Date: Sat, 22 Nov 2025 16:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.630293
- Title: Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning
- Title(参考訳): 統一型マルチモーダルフォージェリー学習による拡散生成ビデオ検出
- Authors: Xiaohong Liu, Xiufeng Song, Huayu Zheng, Lei Bai, Xiaoming Liu, Guangtao Zhai,
- Abstract要約: 既存の手法は主に画像レベルの偽造検出に重点を置いており、一般的なビデオレベルの偽造検出はほとんど探索されていない。
本稿では,拡散生成ビデオの検出に特化して設計したMM-Det++という統合マルチモーダル検出手法を提案する。
- 参考スコア(独自算出の注目度): 61.3737746844896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of videos generated by diffusion models has raised increasing concerns about information security, highlighting the urgent need for reliable detection of synthetic media. Existing methods primarily focus on image-level forgery detection, leaving generic video-level forgery detection largely underexplored. To advance video forensics, we propose a consolidated multimodal detection algorithm, named MM-Det++, specifically designed for detecting diffusion-generated videos. Our approach consists of two innovative branches and a Unified Multimodal Learning (UML) module. Specifically, the Spatio-Temporal (ST) branch employs a novel Frame-Centric Vision Transformer (FC-ViT) to aggregate spatio-temporal information for detecting diffusion-generated videos, where the FC-tokens enable the capture of holistic forgery traces from each video frame. In parallel, the Multimodal (MM) branch adopts a learnable reasoning paradigm to acquire Multimodal Forgery Representation (MFR) by harnessing the powerful comprehension and reasoning capabilities of Multimodal Large Language Models (MLLMs), which discerns the forgery traces from a flexible semantic perspective. To integrate multimodal representations into a coherent space, a UML module is introduced to consolidate the generalization ability of MM-Det++. In addition, we also establish a large-scale and comprehensive Diffusion Video Forensics (DVF) dataset to advance research in video forgery detection. Extensive experiments demonstrate the superiority of MM-Det++ and highlight the effectiveness of unified multimodal forgery learning in detecting diffusion-generated videos.
- Abstract(参考訳): 拡散モデルによって生成されたビデオの拡散は、情報セキュリティに対する懸念を高め、合成メディアの確実な検出を急務に必要とすることを強調している。
既存の手法は主に画像レベルの偽造検出に重点を置いており、一般的なビデオレベルの偽造検出はほとんど探索されていない。
本稿では,拡散生成ビデオの検出に特化して設計されたMM-Det++という統合マルチモーダル検出アルゴリズムを提案する。
このアプローチは、2つの革新的なブランチとUnified Multimodal Learning (UML)モジュールで構成されています。
具体的には、新しいフレーム中心視変換器(FC-ViT)を用いて拡散生成ビデオを検出する時空間情報を集約し、FC-tokenは各ビデオフレームから全体的偽の痕跡を捕捉する。
並行して、Multimodal (MM) ブランチは、Multimodal Forgery Representation (MFR) を取得するための学習可能な推論パラダイムを採用する。
マルチモーダル表現をコヒーレントな空間に統合するために、MM-Det++の一般化能力を統合するためにUMLモジュールが導入された。
さらに,ビデオ偽造検出の研究を進めるために,大規模かつ包括的拡散ビデオフォレシクス(DVF)データセットを構築した。
MM-Det++の優位性を実証し,拡散生成ビデオの検出におけるマルチモーダル・フォージェリ学習の有効性を強調した。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - LMM-Det: Make Large Multimodal Models Excel in Object Detection [0.62914438169038]
本研究では,LMM-Detを提案する。LMM-Detは,大規模なマルチモーダルモデルを用いて,特定の検出モジュールを依存せずに,バニラオブジェクトの検出を行う。
具体的には,大規模なマルチモーダルモデルとオブジェクト検出が一致した場合の総合的な探索分析を行い,リコールレートが専門的検出モデルと比較して著しく低下することを明らかにする。
大規模なマルチモーダルモデルでは、余分な検出モジュールを使わずに検出能力を有する。
論文 参考訳(メタデータ) (2025-07-24T11:05:24Z) - Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion [7.728348842555291]
TikTokやYouTubeなどのプラットフォーム上でのビデオコンテンツが急速に普及し、情報発信が変化した。
ヘイトスピーチと戦うための大きな努力にもかかわらず、これらのビデオの検出は、しばしば暗黙的な性質のために難しいままである。
本稿では,Channel-wise and Modality-wise Fusion Mechanismを用いたマルチモーダルヘイトビデオ検出モデルCMFusionを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:24:48Z) - On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection [44.55891118519547]
本稿では,拡散生成コンテンツを検出するためのMulti-Mod-al Detection(MM-Det)という革新的なアルゴリズムを提案する。
MM-Detは、Multi-Modal Forgery Representation(MMFR)を生成することで、LMM(Large Multi-Modal Models)の深い総合的能力を利用する
MM-Detによるビデオフォサイシクス(DVF)の最先端性能の実現
論文 参考訳(メタデータ) (2024-10-31T04:20:47Z) - Investigating Memorization in Video Diffusion Models [58.70363256771246]
画像生成やビデオ生成に広く用いられている拡散モデルは、推論中にトレーニングデータを記憶し再生するリスクという、重大な制限に直面している。
まず,VDM(Content memorization and Motion memorization)の2種類の記憶を現実的に定義する。
次に、VDMにおけるコンテンツと動きの記憶を別々に評価するために特別に設計された新しい指標を導入する。
論文 参考訳(メタデータ) (2024-10-29T02:34:06Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Multimodal Short Video Rumor Detection System Based on Contrastive
Learning [3.4192832062683842]
中国のショートビデオプラットフォームは、フェイクニュースの拡散の場として徐々に肥大化してきた。
短いビデオの噂を区別することは、大量の情報と共有機能のために大きな課題となる。
本研究グループは,マルチモーダルな特徴融合と外部知識の統合を包含する方法論を提案する。
論文 参考訳(メタデータ) (2023-04-17T16:07:00Z) - Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on
Facial Action Unit Detection [12.509298933267225]
本稿では,MCM(Multimodal Channel-Mixing)と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。
このアプローチは、Channel-Mixingモジュールを統合して、5つのうち2つをランダムにドロップする、初期の融合設定に従っている。
このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能も促進し、ロバストな特徴学習をもたらす。
論文 参考訳(メタデータ) (2022-09-25T15:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。