論文の概要: Texture-aware and Shape-guided Transformer for Sequential DeepFake Detection
- arxiv url: http://arxiv.org/abs/2404.13873v1
- Date: Mon, 22 Apr 2024 04:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 15:16:29.696029
- Title: Texture-aware and Shape-guided Transformer for Sequential DeepFake Detection
- Title(参考訳): シークエンシャルディープフェイク検出のためのテクスチャ認識・形状誘導変換器
- Authors: Yunfei Li, Jiaran Zhou, Xin Wang, Junyu Dong, Yuezun Li,
- Abstract要約: Sequential DeepFakeは、順番に操作シーケンスを予測することを目的とした、新たなタスクである。
既存の手法ではイメージ・ツー・シーケンスの問題として定式化され、従来のTransformerアーキテクチャを用いて検出を行う。
検出性能を向上させるために,新しいテクスチャ認識型および形状誘導型トランスを提案する。
- 参考スコア(独自算出の注目度): 37.54857881490581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential DeepFake detection is an emerging task that aims to predict the manipulation sequence in order. Existing methods typically formulate it as an image-to-sequence problem, employing conventional Transformer architectures for detection. However, these methods lack dedicated design and consequently result in limited performance. In this paper, we propose a novel Texture-aware and Shape-guided Transformer to enhance detection performance. Our method features four major improvements. Firstly, we describe a texture-aware branch that effectively captures subtle manipulation traces with the Diversiform Pixel Difference Attention module. Then we introduce a Bidirectional Interaction Cross-attention module that seeks deep correlations among spatial and sequential features, enabling effective modeling of complex manipulation traces. To further enhance the cross-attention, we describe a Shape-guided Gaussian mapping strategy, providing initial priors of the manipulation shape. Finally, observing that the latter manipulation in a sequence may influence traces left in the earlier one, we intriguingly invert the prediction order from forward to backward, leading to notable gains as expected. Extensive experimental results demonstrate that our method outperforms others by a large margin, highlighting the superiority of our method.
- Abstract(参考訳): シークエンシャルディープフェイク検出は、順番に操作シーケンスを予測することを目的とした、新たなタスクである。
既存の手法ではイメージ・ツー・シーケンスの問題として定式化され、従来のTransformerアーキテクチャを用いて検出を行う。
しかし、これらの手法には専用の設計がなく、結果として性能が制限される。
本稿では,新しいテクスチャ認識型および形状誘導型トランスを提案し,検出性能を向上させる。
我々の方法には4つの大きな改善がある。
まず、Diversiform Pixel Difference Attentionモジュールで微妙な修正トレースを効果的にキャプチャするテクスチャ対応ブランチについて説明する。
次に,空間的特徴と逐次的特徴の間に深い相関関係を求める双方向インタラクション・クロスアテンション・モジュールを導入し,複雑な操作トレースを効果的にモデル化する。
クロスアテンションをさらに強化するため,形状誘導型ガウス写像戦略について述べる。
最後に、列における後者の操作が、先行するトレースに影響を及ぼす可能性があることを観察し、予測順序を前方から後方に反転させ、予想通り顕著な利得をもたらす。
実験結果から,本手法が他の手法よりも優れていることを示すとともに,本手法の優位性も明らかにした。
関連論文リスト
- Learning Expressive And Generalizable Motion Features For Face Forgery
Detection [52.54404879581527]
本稿では,既存のビデオ分類手法に基づく,シーケンスに基づく効果的な偽造検出フレームワークを提案する。
動作特徴をより表現しやすくするために,別の動作整合ブロックを提案する。
一般的なビデオ分類ネットワークを3つの顔偽造データに対して有望な結果を達成する。
論文 参考訳(メタデータ) (2024-03-08T09:25:48Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - SeqCo-DETR: Sequence Consistency Training for Self-Supervised Object
Detection with Transformers [18.803007408124156]
本稿では,SeqCo-DETRを提案する。SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,Sequence Consistency-based self-supervised method for object DEtection with TRansformersを提案する。
提案手法は,MS COCO (45.8 AP) とPASCAL VOC (64.1 AP) の最先端化を実現し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-15T09:36:58Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Mining Generalized Features for Detecting AI-Manipulated Fake Faces [39.86126596985567]
本稿では,本質的な特徴をマイニングし,分布バイアスを排除し,一般化能力を向上する新しい枠組みを提案する。
提案手法は,最もポピュラーで最先端な操作技術を用いて,偽顔データセットの4つのカテゴリで評価する。
論文 参考訳(メタデータ) (2020-10-27T08:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。