論文の概要: Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content
- arxiv url: http://arxiv.org/abs/2412.12278v1
- Date: Mon, 16 Dec 2024 19:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:58.889000
- Title: Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content
- Title(参考訳): ユニバーサル合成ビデオ検出器を目指して:顔や背景操作から完全なAI生成コンテンツへ
- Authors: Rohit Kundu, Hao Xiong, Vishal Mohanty, Athula Balachandran, Amit K. Roy-Chowdhury,
- Abstract要約: 既存のDeepFake検出技術は主に顔のスワッピングや唇の同期といった顔操作に焦点を当てている。
フルフレーム操作をキャプチャするアンダーラインTampered と SynthunderlineEtic Video (textttUNITE) モデルに対して,アンダーラインUniversal UnderlineNetworkを導入している。
textttUNITEは、顔、非人体、複雑な背景修正のないシナリオに検出機能を拡張する。
- 参考スコア(独自算出の注目度): 20.52229907426726
- License:
- Abstract: Existing DeepFake detection techniques primarily focus on facial manipulations, such as face-swapping or lip-syncing. However, advancements in text-to-video (T2V) and image-to-video (I2V) generative models now allow fully AI-generated synthetic content and seamless background alterations, challenging face-centric detection methods and demanding more versatile approaches. To address this, we introduce the \underline{U}niversal \underline{N}etwork for \underline{I}dentifying \underline{T}ampered and synth\underline{E}tic videos (\texttt{UNITE}) model, which, unlike traditional detectors, captures full-frame manipulations. \texttt{UNITE} extends detection capabilities to scenarios without faces, non-human subjects, and complex background modifications. It leverages a transformer-based architecture that processes domain-agnostic features extracted from videos via the SigLIP-So400M foundation model. Given limited datasets encompassing both facial/background alterations and T2V/I2V content, we integrate task-irrelevant data alongside standard DeepFake datasets in training. We further mitigate the model's tendency to over-focus on faces by incorporating an attention-diversity (AD) loss, which promotes diverse spatial attention across video frames. Combining AD loss with cross-entropy improves detection performance across varied contexts. Comparative evaluations demonstrate that \texttt{UNITE} outperforms state-of-the-art detectors on datasets (in cross-data settings) featuring face/background manipulations and fully synthetic T2V/I2V videos, showcasing its adaptability and generalizable detection capabilities.
- Abstract(参考訳): 既存のDeepFake検出技術は主に顔のスワッピングや唇の同期といった顔操作に焦点を当てている。
しかし、テキスト・トゥ・ビデオ(T2V)と画像・トゥ・ビデオ(I2V)生成モデルの進歩により、完全なAI生成合成コンテンツとシームレスな背景修正、顔中心の検出方法への挑戦、より汎用的なアプローチの要求が可能になった。
これを解決するために、従来の検出器とは異なり、フルフレーム操作をキャプチャする \underline{U}niversal \underline{N}etwork for \underline{I}dentifying \underline{T}ampered and synth\underline{E}tic video (\texttt{UNITE}) モデルを導入する。
\texttt{UNITE} は、顔、非人体、複雑な背景修正のないシナリオに検出機能を拡張する。
SigLIP-So400Mファンデーションモデルを通じてビデオから抽出されたドメインに依存しない特徴を処理するトランスフォーマーベースのアーキテクチャを利用する。
顔/背景の変更とT2V/I2Vコンテンツの両方を含む限られたデータセットを考えると、トレーニングにおける標準のDeepFakeデータセットとタスク関連データを統合する。
さらに,映像フレーム間の多様な空間的注意を喚起するAD損失を取り入れることで,顔に過度に焦点をあてる傾向を緩和する。
AD損失とクロスエントロピーを組み合わせることで、さまざまなコンテキストにおける検出性能が向上する。
比較評価では、‘texttt{UNITE}’は、顔/背景操作と完全に合成されたT2V/I2Vビデオを備えたデータセット(クロスデータ設定)上で、最先端の検出器よりも優れており、適応性と一般化可能な検出能力を示している。
関連論文リスト
- Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。
本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector [15.647035299476894]
Tex-ViT (Texture-Vision Transformer)は、ResNetと視覚変換器を組み合わせることでCNN機能を強化する。
このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。
これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-29T20:26:27Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z) - Dynamic texture analysis for detecting fake faces in video sequences [6.1356022122903235]
本研究では,映像信号のテクスチャ・時間的ダイナミクスの解析について検討する。
目標は、実際の偽のシーケンスを識別し、識別することである。
時間セグメントの連成解析に基づいて複数の二分決定を構築することを提案する。
論文 参考訳(メタデータ) (2020-07-30T07:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。