論文の概要: Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection
- arxiv url: http://arxiv.org/abs/2312.16649v1
- Date: Wed, 27 Dec 2023 17:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:27:31.954279
- Title: Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection
- Title(参考訳): 汎用合成画像検出のための偽造対応適応変圧器
- Authors: Huan Liu, Zichang Tan, Chuangchuang Tan, Yunchao Wei, Yao Zhao,
Jingdong Wang
- Abstract要約: 本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
- 参考スコア(独自算出の注目度): 106.39544368711427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of generalizable synthetic image
detection, aiming to detect forgery images from diverse generative methods,
e.g., GANs and diffusion models. Cutting-edge solutions start to explore the
benefits of pre-trained models, and mainly follow the fixed paradigm of solely
training an attached classifier, e.g., combining frozen CLIP-ViT with a
learnable linear layer in UniFD. However, our analysis shows that such a fixed
paradigm is prone to yield detectors with insufficient learning regarding
forgery representations. We attribute the key challenge to the lack of forgery
adaptation, and present a novel forgery-aware adaptive transformer approach,
namely FatFormer. Based on the pre-trained vision-language spaces of CLIP,
FatFormer introduces two core designs for the adaption to build generalized
forgery representations. First, motivated by the fact that both image and
frequency analysis are essential for synthetic image detection, we develop a
forgery-aware adapter to adapt image features to discern and integrate local
forgery traces within image and frequency domains. Second, we find that
considering the contrastive objectives between adapted image features and text
prompt embeddings, a previously overlooked aspect, results in a nontrivial
generalization improvement. Accordingly, we introduce language-guided alignment
to supervise the forgery adaptation with image and text prompts in FatFormer.
Experiments show that, by coupling these two designs, our approach tuned on
4-class ProGAN data attains a remarkable detection performance, achieving an
average of 98% accuracy to unseen GANs, and surprisingly generalizes to unseen
diffusion models with 95% accuracy.
- Abstract(参考訳): 本稿では,GANや拡散モデルなどの多種多様な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
カットエッジソリューションは、事前訓練されたモデルの利点を探求し始め、主に、凍ったCLIP-ViTとUniFDの学習可能な線形層を組み合わせて、付属の分類器のみを訓練する固定パラダイムに従う。
しかし,このような固定パラダイムは,偽造表現に関する学習が不十分な検出器を生成する傾向にある。
本稿では,偽造適応の欠如を鍵となる課題として,新しい偽造対応トランスフォーマー,すなわちfatformerを提案する。
クリップの事前訓練された視覚言語空間に基づいて、fatformerは一般的な偽造表現を構築するために2つのコア設計を導入する。
まず,合成画像検出に画像解析と周波数解析の両方が不可欠であることに動機づけられ,画像特徴を画像領域と周波数領域内の局所的な偽造トレースを識別・統合するために,偽造対応アダプタを開発した。
第二に、適応画像特徴とテキストプロンプト埋め込みの対照的な目的を考えると、これまで見過ごされていた側面は、非自明な一般化の改善をもたらす。
そこで,fatformerにおいて,画像およびテキストプロンプトによる偽造適応を監督するために,言語案内アライメントを導入する。
実験により,これらの2つの設計を結合することにより,4種類の ProGAN データをチューニングし,平均98%の精度でGANを観測し,95%の精度で拡散モデルに驚くほど一般化した。
関連論文リスト
- Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Adaptive Input-image Normalization for Solving the Mode Collapse Problem in GAN-based X-ray Images [0.08192907805418582]
この研究は、適応入力-画像正規化をDeep Conversaal GANとAuxiliary GANと統合してモード崩壊問題を緩和する利点の実証的な実証に寄与する。
その結果, 適応入出力正規化によるDCGANとACGANは, 非正規化X線画像でDCGANとACGANより優れていた。
論文 参考訳(メタデータ) (2023-09-21T16:43:29Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Discrepancy-Guided Reconstruction Learning for Image Forgery Detection [10.221066530624373]
本稿ではまず,不規則な視覚パターンを抽出するDisrepancy-Guided (DisGE)を提案する。
次にDouHR(Dou-Head Reconstruction)モジュールを導入し、異なる粒度空間における真のコンパクトな視覚パターンを強化する。
さらに、DouHRでは、これらの真のコンパクトな視覚パターンを集約するDiscrepancy-Aggregation Detector (DisAD)を導入する。
論文 参考訳(メタデータ) (2023-04-26T07:40:43Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。