Fugu-MT 論文翻訳(概要): Mixture of Low-rank Experts for Transferable AI-Generated Image Detection

論文の概要: Mixture of Low-rank Experts for Transferable AI-Generated Image Detection

arxiv url: http://arxiv.org/abs/2404.04883v1
Date: Sun, 7 Apr 2024 09:01:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 19:11:06.279094
Title: Mixture of Low-rank Experts for Transferable AI-Generated Image Detection
Title（参考訳）: 転送可能なAI生成画像検出のための低ランクエキスパートの混合
Authors: Zihan Liu, Hanyi Wang, Yaoyu Kang, Shilin Wang,
Abstract要約: 生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
参考スコア（独自算出の注目度）: 18.631006488565664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative models have shown a giant leap in synthesizing photo-realistic images with minimal expertise, sparking concerns about the authenticity of online information. This study aims to develop a universal AI-generated image detector capable of identifying images from diverse sources. Existing methods struggle to generalize across unseen generative models when provided with limited sample sources. Inspired by the zero-shot transferability of pre-trained vision-language models, we seek to harness the nontrivial visual-world knowledge and descriptive proficiency of CLIP-ViT to generalize over unknown domains. This paper presents a novel parameter-efficient fine-tuning approach, mixture of low-rank experts, to fully exploit CLIP-ViT's potential while preserving knowledge and expanding capacity for transferable detection. We adapt only the MLP layers of deeper ViT blocks via an integration of shared and separate LoRAs within an MoE-based structure. Extensive experiments on public benchmarks show that our method achieves superiority over state-of-the-art approaches in cross-generator generalization and robustness to perturbations. Remarkably, our best-performing ViT-L/14 variant requires training only 0.08% of its parameters to surpass the leading baseline by +3.64% mAP and +12.72% avg.Acc across unseen diffusion and autoregressive models. This even outperforms the baseline with just 0.28% of the training data. Our code and pre-trained models will be available at https://github.com/zhliuworks/CLIPMoLE.
Abstract（参考訳）: 生成モデルは、最小限の専門知識で写真リアリスティックなイメージを合成する大きな飛躍を見せており、オンライン情報の真正性に対する懸念を引き起こしている。本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。既存の手法は、限られたサンプル源を供給された場合、目に見えない生成モデルを一般化するのに苦労する。事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。本稿では,CLIP-ViTの可能性を完全に活用し,知識の保存と伝達可能な検出能力の拡大を図るために,パラメータ効率の高いファインチューニング手法を提案する。共有されたLoRAと分離されたLoRAをMoEベースの構造に統合することで、より深いViTブロックのMLP層のみを適応する。提案手法は, クロスジェネレータの一般化と摂動に対する堅牢性において, 最先端の手法よりも優れていることを示す。注目すべきことに、我々の最も優れたViT-L/14変種は、そのパラメータの0.08%しかトレーニングを必要とせず、主要なベースラインを +3.64% mAP と +12.72% avg.Acc で越える必要がある。これはトレーニングデータの0.28%でベースラインを上回ります。私たちのコードと事前トレーニングされたモデルは、https://github.com/zhliuworks/CLIPMoLE.orgで公開されます。

関連論文リスト

Detecting AI-Generated Images via Distributional Deviations from Real Images [6.615773227400183]
ファインチューニング中に生成モデル固有のパターンを含むテクスチャ領域をマスクするテクスチャ・アウェア・マスキング(TAM)機構を導入する。我々の手法は最小限の画像しか調整されず、既存の手法よりも大幅に優れており、2つのデータセットの平均精度は98.2%と94.6%に達する。
論文参考訳（メタデータ） (2026-01-07T05:00:13Z)
Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution [3.103291412074661]
本研究では,合成画像検出に固有の一般化問題に対処する新しい2段階検出フレームワークを提案する。提案手法は,既存手法よりも5.2ポイント向上した平均検出精度91.3%を実現する。
論文参考訳（メタデータ） (2025-11-20T16:53:24Z)
Where's the liability in the Generative Era? Recovery-based Black-Box Detection of AI-Generated Content [53.93606081932928]
APIアクセスのみを必要とする新しいブラックボックス検出フレームワークを導入する。画像がモデル自身によって生成された可能性を測定する。マスクされた画像入力をサポートしないブラックボックスモデルに対して、ターゲットモデル分布に適合するように訓練された費用効率の良い代理モデルを導入する。
論文参考訳（メタデータ） (2025-05-02T05:11:35Z)
DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images [14.448350657613368]
DeeCLIPはAI生成画像を検出するための新しいフレームワークである。 DeeFuserは、高レベルと低レベルの機能を組み合わせたフュージョンモジュールである。 4クラスのProGANデータのみをトレーニングし,平均精度は89.90%に達した。
論文参考訳（メタデータ） (2025-04-28T15:06:28Z)
Learning on Less: Constraining Pre-trained Model Learning for Generalizable Diffusion-Generated Image Detection [13.610095493539394]
拡散モデルは、現実的な画像生成を可能にし、誤報のリスクを高め、公衆信頼を損なう。現在、既存の手法の限定的な一般化能力のため、目に見えない拡散モデルによって生成された画像の検出は困難である。我々はLearning on Less (LoL) という,シンプルで効果的な学習方法を提案する。
論文参考訳（メタデータ） (2024-12-01T04:01:43Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文参考訳（メタデータ） (2024-07-26T10:49:14Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文参考訳（メタデータ） (2024-04-02T13:54:22Z)
CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection [3.849401956130233]
広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
論文参考訳（メタデータ） (2024-02-20T11:26:42Z)
Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文参考訳（メタデータ） (2023-11-30T21:11:20Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文参考訳（メタデータ） (2023-02-07T07:13:53Z)
Multiclass non-Adversarial Image Synthesis, with Application to Classification from Very Small Sample [6.243995448840211]
我々は、新しい非逆生成法 - LA(Clustered Optimization of LAtent space)を提案する。本手法は,全データレギュレーションにおいて,教師なしの多様なマルチクラス画像を生成することができる。ラベル付き画像の小さなサンプルのみが、追加のラベル付きデータにアクセスせずにトレーニングできる小データ体制では、同じ量のデータでトレーニングされた最先端のGANモデルを上回る結果が得られる。
論文参考訳（メタデータ） (2020-11-25T18:47:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。