論文の概要: Mixture of Low-rank Experts for Transferable AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2404.04883v1
- Date: Sun, 7 Apr 2024 09:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:11:06.279094
- Title: Mixture of Low-rank Experts for Transferable AI-Generated Image Detection
- Title(参考訳): 転送可能なAI生成画像検出のための低ランクエキスパートの混合
- Authors: Zihan Liu, Hanyi Wang, Yaoyu Kang, Shilin Wang,
- Abstract要約: 生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。
本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。
事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
- 参考スコア(独自算出の注目度): 18.631006488565664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have shown a giant leap in synthesizing photo-realistic images with minimal expertise, sparking concerns about the authenticity of online information. This study aims to develop a universal AI-generated image detector capable of identifying images from diverse sources. Existing methods struggle to generalize across unseen generative models when provided with limited sample sources. Inspired by the zero-shot transferability of pre-trained vision-language models, we seek to harness the nontrivial visual-world knowledge and descriptive proficiency of CLIP-ViT to generalize over unknown domains. This paper presents a novel parameter-efficient fine-tuning approach, mixture of low-rank experts, to fully exploit CLIP-ViT's potential while preserving knowledge and expanding capacity for transferable detection. We adapt only the MLP layers of deeper ViT blocks via an integration of shared and separate LoRAs within an MoE-based structure. Extensive experiments on public benchmarks show that our method achieves superiority over state-of-the-art approaches in cross-generator generalization and robustness to perturbations. Remarkably, our best-performing ViT-L/14 variant requires training only 0.08% of its parameters to surpass the leading baseline by +3.64% mAP and +12.72% avg.Acc across unseen diffusion and autoregressive models. This even outperforms the baseline with just 0.28% of the training data. Our code and pre-trained models will be available at https://github.com/zhliuworks/CLIPMoLE.
- Abstract(参考訳): 生成モデルは、最小限の専門知識で写真リアリスティックなイメージを合成する大きな飛躍を見せており、オンライン情報の真正性に対する懸念を引き起こしている。
本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。
既存の手法は、限られたサンプル源を供給された場合、目に見えない生成モデルを一般化するのに苦労する。
事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
本稿では,CLIP-ViTの可能性を完全に活用し,知識の保存と伝達可能な検出能力の拡大を図るために,パラメータ効率の高いファインチューニング手法を提案する。
共有されたLoRAと分離されたLoRAをMoEベースの構造に統合することで、より深いViTブロックのMLP層のみを適応する。
提案手法は, クロスジェネレータの一般化と摂動に対する堅牢性において, 最先端の手法よりも優れていることを示す。
注目すべきことに、我々の最も優れたViT-L/14変種は、そのパラメータの0.08%しかトレーニングを必要とせず、主要なベースラインを +3.64% mAP と +12.72% avg.Acc で越える必要がある。
これはトレーニングデータの0.28%でベースラインを上回ります。
私たちのコードと事前トレーニングされたモデルは、https://github.com/zhliuworks/CLIPMoLE.orgで公開されます。
関連論文リスト
- Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection [3.849401956130233]
広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。
ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。
シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
論文 参考訳(メタデータ) (2024-02-20T11:26:42Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文 参考訳(メタデータ) (2023-02-07T07:13:53Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Multiclass non-Adversarial Image Synthesis, with Application to
Classification from Very Small Sample [6.243995448840211]
我々は、新しい非逆生成法 - LA(Clustered Optimization of LAtent space)を提案する。
本手法は,全データレギュレーションにおいて,教師なしの多様なマルチクラス画像を生成することができる。
ラベル付き画像の小さなサンプルのみが、追加のラベル付きデータにアクセスせずにトレーニングできる小データ体制では、同じ量のデータでトレーニングされた最先端のGANモデルを上回る結果が得られる。
論文 参考訳(メタデータ) (2020-11-25T18:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。