論文の概要: UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2210.12752v1
- Date: Sun, 23 Oct 2022 15:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:30:21.300521
- Title: UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection
- Title(参考訳): UIA-ViT:顔偽造検出のための視覚変換器に基づく教師なし不整合認識手法
- Authors: Wanyi Zhuang, Qi Chu, Zhentao Tan, Qiankun Liu, Haojie Yuan, Changtao
Miao, Zixiang Luo, Nenghai Yu
- Abstract要約: そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
- 参考スコア(独自算出の注目度): 52.91782218300844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Intra-frame inconsistency has been proved to be effective for the
generalization of face forgery detection. However, learning to focus on these
inconsistency requires extra pixel-level forged location annotations. Acquiring
such annotations is non-trivial. Some existing methods generate large-scale
synthesized data with location annotations, which is only composed of real
images and cannot capture the properties of forgery regions. Others generate
forgery location labels by subtracting paired real and fake images, yet such
paired data is difficult to collected and the generated label is usually
discontinuous. To overcome these limitations, we propose a novel Unsupervised
Inconsistency-Aware method based on Vision Transformer, called UIA-ViT, which
only makes use of video-level labels and can learn inconsistency-aware feature
without pixel-level annotations. Due to the self-attention mechanism, the
attention map among patch embeddings naturally represents the consistency
relation, making the vision Transformer suitable for the consistency
representation learning. Based on vision Transformer, we propose two key
components: Unsupervised Patch Consistency Learning (UPCL) and Progressive
Consistency Weighted Assemble (PCWA). UPCL is designed for learning the
consistency-related representation with progressive optimized pseudo
annotations. PCWA enhances the final classification embedding with previous
patch embeddings optimized by UPCL to further improve the detection
performance. Extensive experiments demonstrate the effectiveness of the
proposed method.
- Abstract(参考訳): フレーム内不整合は顔偽造検出の一般化に有効であることが証明された。
しかし、これらの矛盾に焦点を合わせるには、追加のピクセルレベルの偽位置アノテーションが必要である。
このようなアノテーションを取得するのは簡単ではない。
既存の手法では、実画像のみで構成され、偽造領域の特性をキャプチャできない、位置アノテーションを備えた大規模な合成データを生成するものもある。
偽画像と偽画像のペアを差し引くことで偽の位置情報ラベルを生成する者もいるが、このようなペア画像の収集は困難であり、生成されたラベルは通常不連続である。
これらの制限を克服するために,ビデオレベルのラベルのみを使用せず,画素レベルのアノテーションを使わずに不整合認識機能を学習可能な,ビジョントランスフォーマー(UIA-ViT)に基づく新しい非教師付き不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
視覚変換器をベースとして,Unsupervised Patch Consistency Learning(UPCL)とProgressive Consistency Weighted Assemble(PCWA)の2つの重要なコンポーネントを提案する。
UPCLは、プログレッシブ最適化された擬似アノテーションで一貫性に関連した表現を学ぶために設計されている。
PCWAは、UPCLによって最適化された以前のパッチ埋め込みによる最終分類の埋め込みを強化し、検出性能をさらに向上する。
大規模実験により提案手法の有効性が示された。
関連論文リスト
- MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - Enhancing Deformable Local Features by Jointly Learning to Detect and
Describe Keypoints [8.390939268280235]
局所特徴抽出は、画像マッチングや検索といった重要なタスクに対処するためのコンピュータビジョンにおける標準的なアプローチである。
鍵点を共同で検出・記述する新しい変形認識ネットワークであるDALFを提案する。
提案手法は、変形可能なオブジェクト検索と、非剛性な3次元表面登録という、2つの実世界のアプリケーションの性能を向上させる。
論文 参考訳(メタデータ) (2023-04-02T18:01:51Z) - Uncertain Label Correction via Auxiliary Action Unit Graphs for Facial
Expression Recognition [46.99756911719854]
ULC-AGと呼ばれる補助行動単位(AU)グラフを用いて,表情の不確実なラベル補正を実現する。
ULC-AGはRAF-DBとAffectNetのデータセットでそれぞれ89.31%と61.57%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-23T11:09:43Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - Exploring Feature Representation Learning for Semi-supervised Medical
Image Segmentation [30.608293915653558]
半教師型医用画像分割のための2段階フレームワークを提案する。
重要な洞察は、ラベル付きおよびラベルなし(擬似ラベル付き)画像による特徴表現学習を探索することである。
段階適応型コントラスト学習法を提案し, 境界対応型コントラスト学習法を提案する。
本稿では,高品質な擬似ラベルを生成するためのアレータリック不確実性認識手法,すなわちAUAを提案する。
論文 参考訳(メタデータ) (2021-11-22T05:06:12Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。