論文の概要: TALL: Thumbnail Layout for Deepfake Video Detection
- arxiv url: http://arxiv.org/abs/2307.07494v1
- Date: Fri, 14 Jul 2023 17:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:03:32.912028
- Title: TALL: Thumbnail Layout for Deepfake Video Detection
- Title(参考訳): TALL:ディープフェイクビデオ検出のためのThumbnailレイアウト
- Authors: Yuting Xu, Jian Liang, Gengyun Jia, Ziming Yang, Yanhao Zhang, Ran He
- Abstract要約: 本稿では,Thumbnail Layout(TALL)という,シンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
視覚変換器の成功に触発されて,我々はTALLをSwin Transformerに組み込み,効率的かつ効果的なTALL-Swin法を構築した。
- 参考スコア(独自算出の注目度): 70.58083431244587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing threats of deepfakes to society and cybersecurity have raised
enormous public concerns, and increasing efforts have been devoted to this
critical topic of deepfake video detection. Existing video methods achieve good
performance but are computationally intensive. This paper introduces a simple
yet effective strategy named Thumbnail Layout (TALL), which transforms a video
clip into a pre-defined layout to realize the preservation of spatial and
temporal dependencies. Specifically, consecutive frames are masked in a fixed
position in each frame to improve generalization, then resized to sub-images
and rearranged into a pre-defined layout as the thumbnail. TALL is
model-agnostic and extremely simple by only modifying a few lines of code.
Inspired by the success of vision transformers, we incorporate TALL into Swin
Transformer, forming an efficient and effective method TALL-Swin. Extensive
experiments on intra-dataset and cross-dataset validate the validity and
superiority of TALL and SOTA TALL-Swin. TALL-Swin achieves 90.79$\%$ AUC on the
challenging cross-dataset task, FaceForensics++ $\to$ Celeb-DF. The code is
available at https://github.com/rainy-xu/TALL4Deepfake.
- Abstract(参考訳): 社会やサイバーセキュリティに対するディープフェイクの脅威が高まり、公衆の懸念が高まり、ディープフェイクビデオ検出のこの重要な話題に努力が注がれている。
既存のビデオ手法は優れた性能を発揮するが、計算量が多い。
本稿では,ビデオクリップを予め定義されたレイアウトに変換することで,空間的および時間的依存関係の保存を実現する,Thumbnail Layout (TALL) というシンプルな手法を提案する。
具体的には、連続したフレームを各フレーム内の一定の位置にマスクして一般化を改善し、サブイメージにリサイズし、サムネイルとして予め定義されたレイアウトに再構成する。
TALLは、数行のコードだけを変更することで、モデルに依存しない、非常に単純です。
視覚変換器の成功に触発されて,我々はTALLをSwin Transformerに組み込み,効率的かつ効果的なTALL-Swin法を構築した。
TALLとSOTA TALL-Swinの有効性と優位性を検証した。
TALL-Swinは、挑戦的なクロスデータセットタスク、FaceForensics++ $\to$ Celeb-DFで90.79$\%$AUCを達成した。
コードはhttps://github.com/rainy-xu/tall4 deepfakeで入手できる。
関連論文リスト
- Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Deepfake Video Detection with Spatiotemporal Dropout Transformer [32.577096083927884]
本稿では,ドロップアウトトランスによるディープフェイク映像の検出を容易にするための,単純かつ効果的なパッチレベルアプローチを提案する。
このアプローチでは、各入力ビデオがパッチの袋に再編成され、その後視覚変換器に送られ、堅牢な表現を実現する。
論文 参考訳(メタデータ) (2022-07-14T02:04:42Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。
子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文 参考訳(メタデータ) (2021-05-06T09:46:42Z) - Sharp Multiple Instance Learning for DeepFake Video Detection [54.12548421282696]
我々はDeepFakeビデオに、ビデオレベルのラベルのみを提供するが、フェイクビデオのすべての顔が操作されるわけではない部分的な顔攻撃という新しい問題を導入する。
インスタンス埋め込みからバッグ予測への直接マッピングを構築する鋭いMIL(S-MIL)を提案する。
FFPMSと広く使われているDFDCデータセットの実験により、S-MILは部分的に攻撃されたDeepFakeビデオ検出において他の手法よりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-08-11T08:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。