論文の概要: GGViT:Multistream Vision Transformer Network in Face2Face Facial
Reenactment Detection
- arxiv url: http://arxiv.org/abs/2210.05990v1
- Date: Wed, 12 Oct 2022 07:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:48:01.294695
- Title: GGViT:Multistream Vision Transformer Network in Face2Face Facial
Reenactment Detection
- Title(参考訳): GGViT:Face2顔顔再現検出におけるマルチストリームビジョントランスネットワーク
- Authors: Haotian Wu, Peipei Wang, Xin Wang, Ji Xiang, Rui Gong
- Abstract要約: 我々はGGViTと呼ばれる新しいマルチストリームネットワークアーキテクチャを提案する。
提案手法は,FF++データセット上での最先端の分類精度を実現し,圧縮速度の異なるシナリオで大幅に改善された。
- 参考スコア(独自算出の注目度): 17.238954247196272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting manipulated facial images and videos on social networks has been an
urgent problem to be solved. The compression of videos on social media has
destroyed some pixel details that could be used to detect forgeries. Hence, it
is crucial to detect manipulated faces in videos of different quality. We
propose a new multi-stream network architecture named GGViT, which utilizes
global information to improve the generalization of the model. The embedding of
the whole face extracted by ViT will guide each stream network. Through a large
number of experiments, we have proved that our proposed model achieves
state-of-the-art classification accuracy on FF++ dataset, and has been greatly
improved on scenarios of different compression rates. The accuracy of Raw/C23,
Raw/C40 and C23/C40 was increased by 24.34%, 15.08% and 10.14% respectively.
- Abstract(参考訳): ソーシャルネットワーク上で操作された顔画像やビデオの検出は、緊急に解決すべき課題である。
ソーシャルメディア上の動画の圧縮は、偽造を検知するのに使えるピクセルの細部を破壊した。
したがって、異なる品質の動画で操作された顔を検出することが重要である。
本稿では,グローバル情報を利用してモデルの一般化を改善する,ggvitと呼ばれる新しいマルチストリームネットワークアーキテクチャを提案する。
ViTによって抽出された顔全体の埋め込みは、各ストリームネットワークをガイドする。
多くの実験を通して,提案手法がFF++データセットの最先端の分類精度を実現し,異なる圧縮率のシナリオで大幅に改善されていることを実証した。
raw/c23, raw/c40, c23/c40はそれぞれ24.34%, 15.08%, 10.14%増加した。
関連論文リスト
- Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector [15.647035299476894]
Tex-ViT (Texture-Vision Transformer)は、ResNetと視覚変換器を組み合わせることでCNN機能を強化する。
このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。
これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-29T20:26:27Z) - Deepfake Video Detection Using Generative Convolutional Vision
Transformer [3.8297637120486496]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Deepfake Video Detection Using Convolutional Vision Transformer [0.0]
ディープラーニング技術は、Deepfakesとして知られる超現実的なビデオを生成し合成することができる。
Deepfakesは、アイデンティティの盗難、フィッシング、詐欺などの有害な目的のために使用された場合、すべての人に光る脅威をもたらします。
本稿では,Deepfakes検出のためのConvolutional Vision Transformerを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:56:05Z) - Improving DeepFake Detection Using Dynamic Face Augmentation [0.8793721044482612]
ほとんどの公開可能なDeepFake検出データセットには、限られたバリエーションがある。
ディープニューラルネットワークは、DeepFakeコンテンツの操作機能を検出するための学習ではなく、顔の特徴にオーバーフィットする傾向があります。
DeepFake検出を改善するために、CNN(Convolutional Neural Networks)をトレーニングするためのデータ拡張方法であるFace-Cutoutを紹介します。
論文 参考訳(メタデータ) (2021-02-18T20:25:45Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z) - Detecting Face2Face Facial Reenactment in Videos [76.9573023955201]
本研究では,再現性に基づく変化を検出する学習に基づくアルゴリズムを提案する。
提案アルゴリズムは,局所的なアーティファクトを学習し,様々な圧縮レベルで堅牢な性能を提供するマルチストリームネットワークを用いている。
その結果, 99.96%, 99.10%, 91.20%の非, 容易, 硬度圧縮係数が得られた。
論文 参考訳(メタデータ) (2020-01-21T11:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。