論文の概要: Leveraging Representations from Intermediate Encoder-blocks for
Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2402.19091v1
- Date: Thu, 29 Feb 2024 12:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:05:59.501713
- Title: Leveraging Representations from Intermediate Encoder-blocks for
Synthetic Image Detection
- Title(参考訳): 中間エンコーダブロックからの合成画像検出のためのレバレッジ表現
- Authors: Christos Koutlis, Symeon Papadopoulos
- Abstract要約: SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
- 参考スコア(独自算出の注目度): 16.351249405847863
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The recently developed and publicly available synthetic image generation
methods and services make it possible to create extremely realistic imagery on
demand, raising great risks for the integrity and safety of online information.
State-of-the-art Synthetic Image Detection (SID) research has led to strong
evidence on the advantages of feature extraction from foundation models.
However, such extracted features mostly encapsulate high-level visual semantics
instead of fine-grained details, which are more important for the SID task. On
the contrary, shallow layers encode low-level visual information. In this work,
we leverage the image representations extracted by intermediate Transformer
blocks of CLIP's image-encoder via a lightweight network that maps them to a
learnable forgery-aware vector space capable of generalizing exceptionally
well. We also employ a trainable module to incorporate the importance of each
Transformer block to the final prediction. Our method is compared against the
state-of-the-art by evaluating it on 20 test datasets and exhibits an average
+10.6% absolute performance improvement. Notably, the best performing models
require just a single epoch for training (~8 minutes). Code available at
https://github.com/mever-team/rine.
- Abstract(参考訳): 最近開発され、公開されている合成画像生成手法とサービスは、オンデマンドで極めてリアルな画像を作成することができ、オンライン情報の完全性と安全性に大きなリスクを生じさせる。
最先端の合成画像検出(sid)研究は、基礎モデルからの特徴抽出の利点に関する強力な証拠をもたらした。
しかし、これらの抽出機能は、SIDタスクにおいてより重要となる細部ではなく、主に高レベルの視覚的意味論をカプセル化する。
逆に、浅い層は低レベルの視覚情報をエンコードする。
本研究では,CLIPのイメージエンコーダの中間トランスフォーマーブロックから抽出した画像表現を,学習可能なフォージェリ対応ベクトル空間にマップする軽量ネットワークを用いて活用する。
最終予測に各トランスフォーマーブロックの重要性を取り入れるために、トレーニング可能なモジュールも使用しています。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示した。
特に、最高のパフォーマンスモデルはトレーニングのためにたった1つのエポック(約8分)を必要とする。
コードはhttps://github.com/mever-team/rine。
関連論文リスト
- Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - SAPNet: Segmentation-Aware Progressive Network for Perceptual
Contrastive Deraining [2.615176171489612]
単一画像のデライニングのためのコントラスト学習に基づくセグメンテーション・アウェア・プログレッシブ・ネットワーク(SAPNet)を提案する。
本モデルでは,オブジェクト検出とセマンティックセマンティックセグメンテーションを高い精度で支援する。
論文 参考訳(メタデータ) (2021-11-17T03:57:11Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - The Synthinel-1 dataset: a collection of high resolution synthetic
overhead imagery for building segmentation [1.5293427903448025]
我々は,大規模かつ多様な仮想環境を迅速かつ安価に生成する手法を開発した。
我々は,Synthinel-1が実世界のトレーニング画像の拡張に有用であることを示すために,いくつかのベンチマークデータセットを使用した。
論文 参考訳(メタデータ) (2020-01-15T04:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。