Fugu-MT 論文翻訳(概要): Texture-aware and Shape-guided Transformer for Sequential DeepFake Detection

論文の概要: Texture-aware and Shape-guided Transformer for Sequential DeepFake Detection

arxiv url: http://arxiv.org/abs/2404.13873v1
Date: Mon, 22 Apr 2024 04:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 15:16:29.696029
Title: Texture-aware and Shape-guided Transformer for Sequential DeepFake Detection
Title（参考訳）: シークエンシャルディープフェイク検出のためのテクスチャ認識・形状誘導変換器
Authors: Yunfei Li, Jiaran Zhou, Xin Wang, Junyu Dong, Yuezun Li,
Abstract要約: Sequential DeepFakeは、順番に操作シーケンスを予測することを目的とした、新たなタスクである。既存の手法ではイメージ・ツー・シーケンスの問題として定式化され、従来のTransformerアーキテクチャを用いて検出を行う。検出性能を向上させるために,新しいテクスチャ認識型および形状誘導型トランスを提案する。
参考スコア（独自算出の注目度）: 37.54857881490581
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequential DeepFake detection is an emerging task that aims to predict the manipulation sequence in order. Existing methods typically formulate it as an image-to-sequence problem, employing conventional Transformer architectures for detection. However, these methods lack dedicated design and consequently result in limited performance. In this paper, we propose a novel Texture-aware and Shape-guided Transformer to enhance detection performance. Our method features four major improvements. Firstly, we describe a texture-aware branch that effectively captures subtle manipulation traces with the Diversiform Pixel Difference Attention module. Then we introduce a Bidirectional Interaction Cross-attention module that seeks deep correlations among spatial and sequential features, enabling effective modeling of complex manipulation traces. To further enhance the cross-attention, we describe a Shape-guided Gaussian mapping strategy, providing initial priors of the manipulation shape. Finally, observing that the latter manipulation in a sequence may influence traces left in the earlier one, we intriguingly invert the prediction order from forward to backward, leading to notable gains as expected. Extensive experimental results demonstrate that our method outperforms others by a large margin, highlighting the superiority of our method.
Abstract（参考訳）: シークエンシャルディープフェイク検出は、順番に操作シーケンスを予測することを目的とした、新たなタスクである。既存の手法ではイメージ・ツー・シーケンスの問題として定式化され、従来のTransformerアーキテクチャを用いて検出を行う。しかし、これらの手法には専用の設計がなく、結果として性能が制限される。本稿では,新しいテクスチャ認識型および形状誘導型トランスを提案し,検出性能を向上させる。我々の方法には4つの大きな改善がある。まず、Diversiform Pixel Difference Attentionモジュールで微妙な修正トレースを効果的にキャプチャするテクスチャ対応ブランチについて説明する。次に,空間的特徴と逐次的特徴の間に深い相関関係を求める双方向インタラクション・クロスアテンション・モジュールを導入し,複雑な操作トレースを効果的にモデル化する。クロスアテンションをさらに強化するため,形状誘導型ガウス写像戦略について述べる。最後に、列における後者の操作が、先行するトレースに影響を及ぼす可能性があることを観察し、予測順序を前方から後方に反転させ、予想通り顕著な利得をもたらす。実験結果から,本手法が他の手法よりも優れていることを示すとともに,本手法の優位性も明らかにした。

関連論文リスト

FakeChain: Exposing Shallow Cues in Multi-Step Deepfake Detection [28.153605685413893]
マルチステップまたはハイブリッドのディープフェイクは、シングルステップのフォージェリーでトレーニングされたモデルを検出するために、予期せぬ技術的課題を生じさせる可能性がある。 textbfFakeChainは,5つの最先端の代表ジェネレータを用いて合成した1-,2-,3-Stepフォージェリーからなる大規模ベンチマークである。
論文参考訳（メタデータ） (2025-09-20T09:53:50Z)
Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文参考訳（メタデータ） (2025-03-22T07:03:57Z)
Segmentation-guided Layer-wise Image Vectorization with Gradient Fills [6.037332707968933]
そこで本稿では,画像を勾配を埋め込んだ簡潔なベクトルグラフに変換するためのセグメンテーション誘導ベクトル化フレームワークを提案する。組込み勾配認識セグメンテーションの指導により, 段階的に勾配を埋め込んだB'ezierパスを出力に付加する。
論文参考訳（メタデータ） (2024-08-28T12:08:25Z)
Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文参考訳（メタデータ） (2024-08-12T01:49:13Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
DiffusionMat: Alpha Matting as Sequential Refinement Learning [87.76572845943929]
DiffusionMatは、粗いアルファマットから洗練されたアルファマットへの移行に拡散モデルを利用する画像マッチングフレームワークである。補正モジュールは、各復調ステップで出力を調整し、最終的な結果が入力画像の構造と一致していることを保証する。その結果,DiffusionMatは既存の手法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-11-22T17:16:44Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)
Convolutions and More as Einsum: A Tensor Network Perspective with Advances for Second-Order Methods [2.8645507575980074]
我々はそれらをテンソルネットワーク(TN)として見ることで畳み込みを単純化する TN はダイアグラムを描画し、微分のような関数変換を実行するようにそれらを操作し、それらを固有値で効率的に評価することで、基礎となるテンソル乗法を推論することができる。我々のTN実装は、標準実装のメモリオーバーヘッドをなくしながら、最大4.5倍のKFAC変異を加速し、近似バックプロパゲーションのための新しいハードウェア効率の良いドロップアウトを可能にする。
論文参考訳（メタデータ） (2023-07-05T13:19:41Z)
High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文参考訳（メタデータ） (2022-03-30T00:33:08Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)
Sequential convolutional network for behavioral pattern extraction in gait recognition [0.7874708385247353]
個人の歩行パターンを学習するための逐次畳み込みネットワーク(SCN)を提案する。 SCNでは、時系列の中間特徴写像を理解するために行動情報抽出器(BIE)を構築している。 SCNのマルチフレームアグリゲータは、モバイル3D畳み込み層を介して、長さが不確定なシーケンス上の機能統合を実行する。
論文参考訳（メタデータ） (2021-04-23T08:44:10Z)
Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文参考訳（メタデータ） (2021-03-24T03:14:49Z)
Towards Enhancing Fine-grained Details for Image Matting [40.17208660790402]
微視的詳細の復元は低レベルだが高精細なテクスチャの特徴に依存していると論じている。本モデルは,従来のエンコーダデコーダセマンティックパスと,独立したダウンサンプリングフリーテクスチャ補償パスから構成される。本手法は,Compposition-1kデータセットの以前の開始方法よりも優れている。
論文参考訳（メタデータ） (2021-01-22T13:20:23Z)
Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-10-28T22:24:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。