論文の概要: Texture, Shape and Order Matter: A New Transformer Design for Sequential DeepFake Detection
- arxiv url: http://arxiv.org/abs/2404.13873v4
- Date: Mon, 02 Dec 2024 04:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:23:01.705105
- Title: Texture, Shape and Order Matter: A New Transformer Design for Sequential DeepFake Detection
- Title(参考訳): テクスチャ, 形状, 秩序事項: シークエンシャルディープフェイク検出のための新しい変圧器設計
- Authors: Yunfei Li, Yuezun Li, Xin Wang, Baoyuan Wu, Jiaran Zhou, Junyu Dong,
- Abstract要約: シーケンシャルディープフェイク検出は、順番に操作シーケンスを予測する新しいタスクである。
本稿では, テクスチャ, 形状, 操作順序の3つの視点を探索し, TSOM と呼ばれる新しいトランスフォーマーの設計について述べる。
- 参考スコア(独自算出の注目度): 57.100891917805086
- License:
- Abstract: Sequential DeepFake detection is an emerging task that predicts the manipulation sequence in order. Existing methods typically formulate it as an image-to-sequence problem, employing conventional Transformer architectures. However, these methods lack dedicated design and consequently result in limited performance. As such, this paper describes a new Transformer design, called TSOM, by exploring three perspectives: Texture, Shape, and Order of Manipulations. Our method features four major improvements: \ding{182} we describe a new texture-aware branch that effectively captures subtle manipulation traces with a Diversiform Pixel Difference Attention module. \ding{183} Then we introduce a Multi-source Cross-attention module to seek deep correlations among spatial and sequential features, enabling effective modeling of complex manipulation traces. \ding{184} To further enhance the cross-attention, we describe a Shape-guided Gaussian mapping strategy, providing initial priors of the manipulation shape. \ding{185} Finally, observing that the subsequent manipulation in a sequence may influence traces left in the preceding one, we intriguingly invert the prediction order from forward to backward, leading to notable gains as expected. Extensive experimental results demonstrate that our method outperforms others by a large margin, highlighting the superiority of our method.
- Abstract(参考訳): シーケンシャルディープフェイク検出は、順番に操作シーケンスを予測する新しいタスクである。
既存の手法では、従来のトランスフォーマーアーキテクチャを用いて、画像とシーケンスの問題として定式化されている。
しかし、これらの手法には専用の設計がなく、結果として性能が制限される。
そこで本稿では, テクスチャ, 形状, 操作順序の3つの視点を探索し, TSOM と呼ばれる新しいトランスフォーマー設計について述べる。
新しいテクスチャ対応ブランチを記述し、Diversiform Pixel Different Attentionモジュールで微妙な操作トレースを効果的にキャプチャする。
次に、空間的およびシーケンシャルな特徴間の深い相関を求めるマルチソース・クロスアテンション・モジュールを導入し、複雑な操作トレースを効果的にモデル化する。
図示{184} クロスアテンションをさらに強化するために、形状誘導ガウス写像戦略を記述し、操作形状の初期の事前情報を提供する。
図1185} 最後に、以降のシーケンスでの操作が、前者のトレースに影響を及ぼす可能性があることを観察し、予測順序を前方から後方に反転させ、予想通り顕著な利得をもたらす。
実験結果から,本手法が他の手法よりも優れていることを示すとともに,本手法の優位性も明らかにした。
関連論文リスト
- Segmentation-guided Layer-wise Image Vectorization with Gradient Fills [6.037332707968933]
そこで本稿では,画像を勾配を埋め込んだ簡潔なベクトルグラフに変換するためのセグメンテーション誘導ベクトル化フレームワークを提案する。
組込み勾配認識セグメンテーションの指導により, 段階的に勾配を埋め込んだB'ezierパスを出力に付加する。
論文 参考訳(メタデータ) (2024-08-28T12:08:25Z) - Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。
また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文 参考訳(メタデータ) (2024-08-12T01:49:13Z) - DiffusionMat: Alpha Matting as Sequential Refinement Learning [87.76572845943929]
DiffusionMatは、粗いアルファマットから洗練されたアルファマットへの移行に拡散モデルを利用する画像マッチングフレームワークである。
補正モジュールは、各復調ステップで出力を調整し、最終的な結果が入力画像の構造と一致していることを保証する。
その結果,DiffusionMatは既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-11-22T17:16:44Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Convolutions and More as Einsum: A Tensor Network Perspective with Advances for Second-Order Methods [2.8645507575980074]
我々はそれらをテンソルネットワーク(TN)として見ることで畳み込みを単純化する
TN はダイアグラムを描画し、微分のような関数変換を実行するようにそれらを操作し、それらを固有値で効率的に評価することで、基礎となるテンソル乗法を推論することができる。
我々のTN実装は、標準実装のメモリオーバーヘッドをなくしながら、最大4.5倍のKFAC変異を加速し、近似バックプロパゲーションのための新しいハードウェア効率の良いドロップアウトを可能にする。
論文 参考訳(メタデータ) (2023-07-05T13:19:41Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Towards Enhancing Fine-grained Details for Image Matting [40.17208660790402]
微視的詳細の復元は低レベルだが高精細なテクスチャの特徴に依存していると論じている。
本モデルは,従来のエンコーダデコーダセマンティックパスと,独立したダウンサンプリングフリーテクスチャ補償パスから構成される。
本手法は,Compposition-1kデータセットの以前の開始方法よりも優れている。
論文 参考訳(メタデータ) (2021-01-22T13:20:23Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。