論文の概要: Team NYCU at Defactify4: Robust Detection and Source Identification of AI-Generated Images Using CNN and CLIP-Based Models
- arxiv url: http://arxiv.org/abs/2503.10718v1
- Date: Thu, 13 Mar 2025 07:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:08.276307
- Title: Team NYCU at Defactify4: Robust Detection and Source Identification of AI-Generated Images Using CNN and CLIP-Based Models
- Title(参考訳): Team NYCU at Defactify4: CNNとCLIPモデルを用いたAI生成画像のロバスト検出とソース同定
- Authors: Tsan-Tsung Yang, I-Wei Chen, Kuan-Ting Chen, Shang-Hsuan Chiang, Wen-Chih Peng,
- Abstract要約: 本稿では,CNNとCLIP-ViT分類器を用いて,AI生成画像の検出とソースモデルの同定に取り組む。
CNNベースの分類器では、EfficientNet-B0をバックボーンとして利用し、RGBチャネル、周波数特性、再構成エラーでフィードをフィード化する。
CLIP-ViTでは、事前訓練されたCLIP画像エンコーダを用いて画像の特徴を抽出し、SVMを用いて分類を行う。
- 参考スコア(独自算出の注目度): 8.149084146016587
- License:
- Abstract: With the rapid advancement of generative AI, AI-generated images have become increasingly realistic, raising concerns about creativity, misinformation, and content authenticity. Detecting such images and identifying their source models has become a critical challenge in ensuring the integrity of digital media. This paper tackles the detection of AI-generated images and identifying their source models using CNN and CLIP-ViT classifiers. For the CNN-based classifier, we leverage EfficientNet-B0 as the backbone and feed with RGB channels, frequency features, and reconstruction errors, while for CLIP-ViT, we adopt a pretrained CLIP image encoder to extract image features and SVM to perform classification. Evaluated on the Defactify 4 dataset, our methods demonstrate strong performance in both tasks, with CLIP-ViT showing superior robustness to image perturbations. Compared to baselines like AEROBLADE and OCC-CLIP, our approach achieves competitive results. Notably, our method ranked Top-3 overall in the Defactify 4 competition, highlighting its effectiveness and generalizability. All of our implementations can be found in https://github.com/uuugaga/Defactify_4
- Abstract(参考訳): 生成AIの急速な進歩により、AI生成画像はますます現実的になり、創造性、誤情報、コンテンツ認証に関する懸念が高まっている。
このような画像の検出とソースモデルの同定は,デジタルメディアの整合性を確保する上で重要な課題となっている。
本稿では,CNNとCLIP-ViT分類器を用いて,AI生成画像の検出とソースモデルの同定に取り組む。
CNN ベースの分類器では、EfficientNet-B0 をバックボーンとして利用し、RGB チャネル、周波数特性、再構成エラーを処理しますが、CLIP-ViT では、事前訓練された CLIP 画像エンコーダを採用して画像の特徴を抽出し、SVM を分類します。
Defactify 4データセットに基づいて評価した結果,CLIP-ViTは画像摂動に優れたロバスト性を示した。
AEROBLADEやOCC-CLIPといったベースラインと比較して,本手法は競争力のある結果が得られる。
特に,本手法は,Defactify 4コンペティションにおいて総合的にトップ3にランクインし,その有効性と一般化性を強調した。
すべての実装はhttps://github.com/uuugaga/Defactify_4で確認できる。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
我々はAI生成画像を検出するAI生成画像検出装置(AI生成画像検出装置)を提案する。
AIDEは最先端の手法を+3.5%、+4.6%改善した。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Creating Realistic Anterior Segment Optical Coherence Tomography Images
using Generative Adversarial Networks [0.0]
Generative Adversarial Network (GAN) は、高解像度でリアルな前部セグメント光コヒーレンス・トモグラフィ(AS-OCT)画像の作成を目的としている。
我々は,142,628 AS- OCT Bスキャンを用いて,スタイルとウェーブレットをベースとしたGANを訓練した。
論文 参考訳(メタデータ) (2023-06-24T20:48:00Z) - CIFAKE: Image Classification and Explainable Identification of
AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。
写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。
本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-03-24T16:33:06Z) - Face Recognition in the age of CLIP & Billion image datasets [0.0]
種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
論文 参考訳(メタデータ) (2023-01-18T05:34:57Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。