論文の概要: On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection
- arxiv url: http://arxiv.org/abs/2410.23623v2
- Date: Wed, 22 Jan 2025 04:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:44.915326
- Title: On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection
- Title(参考訳): 拡散生成ビデオ検出のための多モードフォージェリ表現の学習について
- Authors: Xiufeng Song, Xiao Guo, Jiache Zhang, Qirui Li, Lei Bai, Xiaoming Liu, Guangtao Zhai, Xiaohong Liu,
- Abstract要約: 本稿では,拡散生成コンテンツを検出するためのMulti-Mod-al Detection(MM-Det)という革新的なアルゴリズムを提案する。
MM-Detは、Multi-Modal Forgery Representation(MMFR)を生成することで、LMM(Large Multi-Modal Models)の深い総合的能力を利用する
MM-Detによるビデオフォサイシクス(DVF)の最先端性能の実現
- 参考スコア(独自算出の注目度): 44.55891118519547
- License:
- Abstract: Large numbers of synthesized videos from diffusion models pose threats to information security and authenticity, leading to an increasing demand for generated content detection. However, existing video-level detection algorithms primarily focus on detecting facial forgeries and often fail to identify diffusion-generated content with a diverse range of semantics. To advance the field of video forensics, we propose an innovative algorithm named Multi-Modal Detection(MM-Det) for detecting diffusion-generated videos. MM-Det utilizes the profound perceptual and comprehensive abilities of Large Multi-modal Models (LMMs) by generating a Multi-Modal Forgery Representation (MMFR) from LMM's multi-modal space, enhancing its ability to detect unseen forgery content. Besides, MM-Det leverages an In-and-Across Frame Attention (IAFA) mechanism for feature augmentation in the spatio-temporal domain. A dynamic fusion strategy helps refine forgery representations for the fusion. Moreover, we construct a comprehensive diffusion video dataset, called Diffusion Video Forensics (DVF), across a wide range of forgery videos. MM-Det achieves state-of-the-art performance in DVF, demonstrating the effectiveness of our algorithm. Both source code and DVF are available at https://github.com/SparkleXFantasy/MM-Det.
- Abstract(参考訳): 拡散モデルから合成された大量のビデオは、情報セキュリティと認証に対する脅威を生じさせ、生成されたコンテンツ検出に対する需要が増大する。
しかし、既存のビデオレベルの検出アルゴリズムは、主に顔の偽造を検知することに焦点を当てており、多種多様な意味を持つ拡散生成コンテンツを特定するのに失敗することが多い。
本稿では,拡散生成ビデオを検出するためのマルチモーダル検出(MM-Det)という革新的なアルゴリズムを提案する。
MM-Detは、LMMのマルチモーダル空間からMulti-Modal Forgery Representation(MMFR)を生成することで、LMMの深い知覚的・包括的能力を活用し、目に見えない偽コンテンツを検出する能力を向上させる。
さらに、MM-Detは、時空間領域における機能拡張のために、IAFA(In-and-Across Frame Attention)メカニズムを利用する。
動的融合戦略は、融合のための偽表現を洗練させるのに役立つ。
さらに,DVF(Diffusion Video Forensics)と呼ばれる包括的拡散ビデオデータセットを,幅広い偽ビデオに対して構築する。
MM-DetはDVFの最先端性能を実現し,提案アルゴリズムの有効性を実証する。
ソースコードとDVFはhttps://github.com/SparkleXFantasy/MM-Detで入手できる。
関連論文リスト
- Investigating Memorization in Video Diffusion Models [58.70363256771246]
画像生成やビデオ生成に広く用いられている拡散モデルは、推論中にトレーニングデータを記憶し再生するリスクという、重大な制限に直面している。
まず,VDM(Content memorization and Motion memorization)の2種類の記憶を現実的に定義する。
次に、VDMにおけるコンテンツと動きの記憶を別々に評価するために特別に設計された新しい指標を導入する。
論文 参考訳(メタデータ) (2024-10-29T02:34:06Z) - Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。
ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。
本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T21:52:49Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio
Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。
本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文 参考訳(メタデータ) (2023-09-12T18:37:05Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Denoising Bottleneck with Mutual Information Maximization for Video
Multimodal Fusion [30.631733395175765]
ビデオマルチモーダル融合は、ビデオにマルチモーダル信号を統合することを目的としている。
ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオのモダリティに富んでいる。
本稿では,微細なビデオ融合のためのボトルネック融合モデルを提案する。
論文 参考訳(メタデータ) (2023-05-24T02:39:43Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Frame Aggregation and Multi-Modal Fusion Framework for Video-Based
Person Recognition [13.875674649636874]
ビデオに基づく人物認識のためのフレームアグリゲーションとマルチモーダルフュージョン(FAMF)フレームワークを提案する。
FAMFは顔の特徴を集約し、ビデオ内の人物を特定するためのマルチモーダル情報を組み込む。
本稿では,NetVLADにアテンション機構を導入することで,低品質フレームの影響を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2020-10-19T08:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。