論文の概要: UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2210.12752v1
- Date: Sun, 23 Oct 2022 15:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:30:21.300521
- Title: UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection
- Title(参考訳): UIA-ViT:顔偽造検出のための視覚変換器に基づく教師なし不整合認識手法
- Authors: Wanyi Zhuang, Qi Chu, Zhentao Tan, Qiankun Liu, Haojie Yuan, Changtao
Miao, Zixiang Luo, Nenghai Yu
- Abstract要約: そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
- 参考スコア(独自算出の注目度): 52.91782218300844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Intra-frame inconsistency has been proved to be effective for the
generalization of face forgery detection. However, learning to focus on these
inconsistency requires extra pixel-level forged location annotations. Acquiring
such annotations is non-trivial. Some existing methods generate large-scale
synthesized data with location annotations, which is only composed of real
images and cannot capture the properties of forgery regions. Others generate
forgery location labels by subtracting paired real and fake images, yet such
paired data is difficult to collected and the generated label is usually
discontinuous. To overcome these limitations, we propose a novel Unsupervised
Inconsistency-Aware method based on Vision Transformer, called UIA-ViT, which
only makes use of video-level labels and can learn inconsistency-aware feature
without pixel-level annotations. Due to the self-attention mechanism, the
attention map among patch embeddings naturally represents the consistency
relation, making the vision Transformer suitable for the consistency
representation learning. Based on vision Transformer, we propose two key
components: Unsupervised Patch Consistency Learning (UPCL) and Progressive
Consistency Weighted Assemble (PCWA). UPCL is designed for learning the
consistency-related representation with progressive optimized pseudo
annotations. PCWA enhances the final classification embedding with previous
patch embeddings optimized by UPCL to further improve the detection
performance. Extensive experiments demonstrate the effectiveness of the
proposed method.
- Abstract(参考訳): フレーム内不整合は顔偽造検出の一般化に有効であることが証明された。
しかし、これらの矛盾に焦点を合わせるには、追加のピクセルレベルの偽位置アノテーションが必要である。
このようなアノテーションを取得するのは簡単ではない。
既存の手法では、実画像のみで構成され、偽造領域の特性をキャプチャできない、位置アノテーションを備えた大規模な合成データを生成するものもある。
偽画像と偽画像のペアを差し引くことで偽の位置情報ラベルを生成する者もいるが、このようなペア画像の収集は困難であり、生成されたラベルは通常不連続である。
これらの制限を克服するために,ビデオレベルのラベルのみを使用せず,画素レベルのアノテーションを使わずに不整合認識機能を学習可能な,ビジョントランスフォーマー(UIA-ViT)に基づく新しい非教師付き不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
視覚変換器をベースとして,Unsupervised Patch Consistency Learning(UPCL)とProgressive Consistency Weighted Assemble(PCWA)の2つの重要なコンポーネントを提案する。
UPCLは、プログレッシブ最適化された擬似アノテーションで一貫性に関連した表現を学ぶために設計されている。
PCWAは、UPCLによって最適化された以前のパッチ埋め込みによる最終分類の埋め込みを強化し、検出性能をさらに向上する。
大規模実験により提案手法の有効性が示された。
関連論文リスト
- DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models [7.649900082537232]
本研究では,視覚-テクスチュアルモデルのための教師なしドメイン適応手法であるDPAを紹介する。
双対プロトタイプの概念を導入し、出力の凸結合とともに別個の分類器として機能する。
それは、特に初期の訓練において、堅牢な自己訓練を促進するために擬似ラベルをランク付けする。
13の下流視覚タスクの実験では、DPAはゼロショットCLIPと最先端の教師なし適応ベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2024-08-16T17:30:27Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - Uncertain Label Correction via Auxiliary Action Unit Graphs for Facial
Expression Recognition [46.99756911719854]
ULC-AGと呼ばれる補助行動単位(AU)グラフを用いて,表情の不確実なラベル補正を実現する。
ULC-AGはRAF-DBとAffectNetのデータセットでそれぞれ89.31%と61.57%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-23T11:09:43Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Exploring Feature Representation Learning for Semi-supervised Medical
Image Segmentation [30.608293915653558]
半教師型医用画像分割のための2段階フレームワークを提案する。
重要な洞察は、ラベル付きおよびラベルなし(擬似ラベル付き)画像による特徴表現学習を探索することである。
段階適応型コントラスト学習法を提案し, 境界対応型コントラスト学習法を提案する。
本稿では,高品質な擬似ラベルを生成するためのアレータリック不確実性認識手法,すなわちAUAを提案する。
論文 参考訳(メタデータ) (2021-11-22T05:06:12Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。