論文の概要: Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2305.13800v1
- Date: Tue, 23 May 2023 08:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:56:21.890576
- Title: Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning
- Title(参考訳): 言語誘導型コントラスト学習による汎用合成画像検出
- Authors: Haiwei Wu and Jiantao Zhou and Shile Zhang
- Abstract要約: 偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
- 参考スコア(独自算出の注目度): 22.4158195581231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The heightened realism of AI-generated images can be attributed to the rapid
development of synthetic models, including generative adversarial networks
(GANs) and diffusion models (DMs). The malevolent use of synthetic images, such
as the dissemination of fake news or the creation of fake profiles, however,
raises significant concerns regarding the authenticity of images. Though many
forensic algorithms have been developed for detecting synthetic images, their
performance, especially the generalization capability, is still far from being
adequate to cope with the increasing number of synthetic models. In this work,
we propose a simple yet very effective synthetic image detection method via a
language-guided contrastive learning and a new formulation of the detection
problem. We first augment the training images with carefully-designed textual
labels, enabling us to use a joint image-text contrastive learning for the
forensic feature extraction. In addition, we formulate the synthetic image
detection as an identification problem, which is vastly different from the
traditional classification-based approaches. It is shown that our proposed
LanguAge-guided SynThEsis Detection (LASTED) model achieves much improved
generalizability to unseen image generation models and delivers promising
performance that far exceeds state-of-the-art competitors by +22.66% accuracy
and +15.24% AUC. The code is available at https://github.com/HighwayWu/LASTED.
- Abstract(参考訳): ai生成画像の高精細化は、生成逆ネットワーク(gans)や拡散モデル(dms)を含む合成モデルの急速な発展に起因している。
しかし、偽のニュースの拡散や偽のプロフィールの作成といった合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
合成画像の検出のために多くの法医学的アルゴリズムが開発されているが、その性能、特に一般化能力は、合成モデルの増加に対応するには程遠い。
本研究では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルながら極めて効果的な合成画像検出手法を提案する。
まず, 精巧に設計されたテキストラベルを用いて訓練画像の強化を行い, 法医学的特徴抽出に画像・テキストの対比学習を併用した。
さらに,従来の分類に基づく手法とは大きく異なる識別問題として合成画像検出を定式化する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上し,22.66%の精度と+15.24%のAUCで,最先端の競合他社をはるかに上回る有望な性能を実現している。
コードはhttps://github.com/HighwayWu/LASTEDで公開されている。
関連論文リスト
- ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - Harnessing the Power of Large Vision Language Models for Synthetic Image Detection [14.448350657613364]
本研究では,合成画像識別における高度な視覚言語モデル(VLM)の有効性について検討した。
大規模VLMの頑健な理解能力を活用することにより,拡散モデルによる合成画像と真正画像の識別が目的である。
論文 参考訳(メタデータ) (2024-04-03T13:27:54Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Improving Synthetically Generated Image Detection in Cross-Concept
Settings [20.21594285488186]
我々は、例えば、人間の顔に検出器を訓練する際に、様々な概念クラスをまたがって一般化するという課題に焦点をあてる。
本稿では,現実的な合成画像上での学習により,検出器の堅牢性を向上できるという前提に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-24T12:45:00Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Deep Image Fingerprint: Towards Low Budget Synthetic Image Detection and Model Lineage Analysis [8.777277201807351]
本研究では,実際の画像と区別できない画像の新たな検出方法を提案する。
本手法は、既知の生成モデルから画像を検出し、微調整された生成モデル間の関係を確立することができる。
本手法は,Stable Diffusion とMidversa が生成した画像に対して,最先端の事前学習検出手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-03-19T20:31:38Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition [61.87842307164351]
まず,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity-Aware CycleGAN)モデルを提案する。
眼や鼻などの重要な顔領域の合成により多くの注意を払うことで、フォトエッチング合成におけるサイクガンを改善する。
IACycleGANによる画像の合成を反復的に行う合成モデルと認識モデルとの相互最適化手法を開発した。
論文 参考訳(メタデータ) (2021-03-30T01:30:08Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。