Fugu-MT 論文翻訳(概要): UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection

論文の概要: UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection

arxiv url: http://arxiv.org/abs/2210.12752v1
Date: Sun, 23 Oct 2022 15:24:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 17:30:21.300521
Title: UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection
Title（参考訳）: UIA-ViT:顔偽造検出のための視覚変換器に基づく教師なし不整合認識手法
Authors: Wanyi Zhuang, Qi Chu, Zhentao Tan, Qiankun Liu, Haojie Yuan, Changtao Miao, Zixiang Luo, Nenghai Yu
Abstract要約: そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
参考スコア（独自算出の注目度）: 52.91782218300844
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Intra-frame inconsistency has been proved to be effective for the generalization of face forgery detection. However, learning to focus on these inconsistency requires extra pixel-level forged location annotations. Acquiring such annotations is non-trivial. Some existing methods generate large-scale synthesized data with location annotations, which is only composed of real images and cannot capture the properties of forgery regions. Others generate forgery location labels by subtracting paired real and fake images, yet such paired data is difficult to collected and the generated label is usually discontinuous. To overcome these limitations, we propose a novel Unsupervised Inconsistency-Aware method based on Vision Transformer, called UIA-ViT, which only makes use of video-level labels and can learn inconsistency-aware feature without pixel-level annotations. Due to the self-attention mechanism, the attention map among patch embeddings naturally represents the consistency relation, making the vision Transformer suitable for the consistency representation learning. Based on vision Transformer, we propose two key components: Unsupervised Patch Consistency Learning (UPCL) and Progressive Consistency Weighted Assemble (PCWA). UPCL is designed for learning the consistency-related representation with progressive optimized pseudo annotations. PCWA enhances the final classification embedding with previous patch embeddings optimized by UPCL to further improve the detection performance. Extensive experiments demonstrate the effectiveness of the proposed method.
Abstract（参考訳）: フレーム内不整合は顔偽造検出の一般化に有効であることが証明された。しかし、これらの矛盾に焦点を合わせるには、追加のピクセルレベルの偽位置アノテーションが必要である。このようなアノテーションを取得するのは簡単ではない。既存の手法では、実画像のみで構成され、偽造領域の特性をキャプチャできない、位置アノテーションを備えた大規模な合成データを生成するものもある。偽画像と偽画像のペアを差し引くことで偽の位置情報ラベルを生成する者もいるが、このようなペア画像の収集は困難であり、生成されたラベルは通常不連続である。これらの制限を克服するために,ビデオレベルのラベルのみを使用せず,画素レベルのアノテーションを使わずに不整合認識機能を学習可能な,ビジョントランスフォーマー(UIA-ViT)に基づく新しい非教師付き不整合認識手法を提案する。自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。視覚変換器をベースとして,Unsupervised Patch Consistency Learning(UPCL)とProgressive Consistency Weighted Assemble(PCWA)の2つの重要なコンポーネントを提案する。 UPCLは、プログレッシブ最適化された擬似アノテーションで一貫性に関連した表現を学ぶために設計されている。 PCWAは、UPCLによって最適化された以前のパッチ埋め込みによる最終分類の埋め込みを強化し、検出性能をさらに向上する。大規模実験により提案手法の有効性が示された。

関連論文リスト

EAUWSeg: Eliminating annotation uncertainty in weakly-supervised medical image segmentation [4.334357692599945]
正確なピクセル間ラベルではなく、粗いアノテーションのみを必要とするため、弱く管理された医用画像のセグメンテーションが勢いを増している。本稿では,その学習フレームワークEAUWSegと結合して,アノテーションの不確実性を排除した新しい弱いアノテーション手法を提案する。 EAUWSegは、既存の弱教師付きセグメンテーション法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T06:21:02Z)
DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models [7.649900082537232]
本研究では,視覚-テクスチュアルモデルのための教師なしドメイン適応手法であるDPAを紹介する。双対プロトタイプの概念を導入し、出力の凸結合とともに別個の分類器として機能する。それは、特に初期の訓練において、堅牢な自己訓練を促進するために擬似ラベルをランク付けする。 13の下流視覚タスクの実験では、DPAはゼロショットCLIPと最先端の教師なし適応ベースラインを大きく上回っている。
論文参考訳（メタデータ） (2024-08-16T17:30:27Z)
Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。 TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文参考訳（メタデータ） (2024-03-15T12:48:44Z)
MS-Former: Memory-Supported Transformer for Weakly Supervised Change Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。 MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-11-16T09:57:29Z)
Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。 FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文参考訳（メタデータ） (2023-09-20T06:51:11Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
A Cross-Scale Hierarchical Transformer with Correspondence-Augmented Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文参考訳（メタデータ） (2023-04-07T13:52:47Z)
Uncertain Label Correction via Auxiliary Action Unit Graphs for Facial Expression Recognition [46.99756911719854]
ULC-AGと呼ばれる補助行動単位(AU)グラフを用いて,表情の不確実なラベル補正を実現する。 ULC-AGはRAF-DBとAffectNetのデータセットでそれぞれ89.31%と61.57%の精度を達成した。
論文参考訳（メタデータ） (2022-04-23T11:09:43Z)
Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文参考訳（メタデータ） (2022-04-14T22:58:30Z)
Exploring Feature Representation Learning for Semi-supervised Medical Image Segmentation [30.608293915653558]
半教師型医用画像分割のための2段階フレームワークを提案する。重要な洞察は、ラベル付きおよびラベルなし(擬似ラベル付き)画像による特徴表現学習を探索することである。段階適応型コントラスト学習法を提案し, 境界対応型コントラスト学習法を提案する。本稿では,高品質な擬似ラベルを生成するためのアレータリック不確実性認識手法,すなわちAUAを提案する。
論文参考訳（メタデータ） (2021-11-22T05:06:12Z)
Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文参考訳（メタデータ） (2020-04-09T14:57:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。