論文の概要: Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation
- arxiv url: http://arxiv.org/abs/2503.14905v1
- Date: Wed, 19 Mar 2025 05:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:48.107497
- Title: Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation
- Title(参考訳): スポット・ザ・フェイク:アーティファクト記述を用いた大規模マルチモーダルモデルに基づく合成画像検出
- Authors: Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li,
- Abstract要約: 本稿では,一般的な合成画像とDeepFake検出タスクの両方を対象とした,大規模マルチモーダルモデルであるFakeVLMを紹介する。
FakeVLMは、本物と偽のイメージを区別し、画像アーティファクトの明確な自然言語説明を提供する。
FakeClueは、7つのカテゴリにわたる10万以上の画像を含む包括的データセットで、自然言語のきめ細かいアーティファクトのヒントで注釈付けされている。
- 参考スコア(独自算出の注目度): 15.442558725312976
- License:
- Abstract: With the rapid advancement of Artificial Intelligence Generated Content (AIGC) technologies, synthetic images have become increasingly prevalent in everyday life, posing new challenges for authenticity assessment and detection. Despite the effectiveness of existing methods in evaluating image authenticity and locating forgeries, these approaches often lack human interpretability and do not fully address the growing complexity of synthetic data. To tackle these challenges, we introduce FakeVLM, a specialized large multimodal model designed for both general synthetic image and DeepFake detection tasks. FakeVLM not only excels in distinguishing real from fake images but also provides clear, natural language explanations for image artifacts, enhancing interpretability. Additionally, we present FakeClue, a comprehensive dataset containing over 100,000 images across seven categories, annotated with fine-grained artifact clues in natural language. FakeVLM demonstrates performance comparable to expert models while eliminating the need for additional classifiers, making it a robust solution for synthetic data detection. Extensive evaluations across multiple datasets confirm the superiority of FakeVLM in both authenticity classification and artifact explanation tasks, setting a new benchmark for synthetic image detection. The dataset and code will be released in: https://github.com/opendatalab/FakeVLM.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)技術の急速な進歩により、合成画像は日々の生活でますます普及し、信頼性の評価と検出に新たな課題を提起している。
画像の真正性の評価や偽造の位置決定における既存の手法の有効性にもかかわらず、これらの手法は人間の解釈可能性に欠け、合成データの増大する複雑さに完全に対処できないことが多い。
これらの課題に対処するために,一般的な合成画像とDeepFake検出タスクの両方用に設計された,大規模マルチモーダルモデルであるFakeVLMを紹介した。
FakeVLMは、実像と偽像を区別するだけでなく、画像アーティファクトの明確な自然言語説明を提供し、解釈可能性を高めている。
さらに、FakeClueは、7つのカテゴリにまたがる10万以上の画像を含む包括的なデータセットで、自然言語のきめ細かいアーティファクトのヒントで注釈付けされている。
FakeVLMは、専門家モデルに匹敵するパフォーマンスを示しながら、追加の分類器の必要性を排除し、合成データ検出の堅牢なソリューションである。
複数のデータセットにわたる広範囲な評価により、信頼度分類とアーティファクト説明タスクの両方において、FakeVLMの優位性が確認され、合成画像検出のための新しいベンチマークが設定された。
データセットとコードは、https://github.com/opendatalab/FakeVLM.comでリリースされる。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Detect Fake with Fake: Leveraging Synthetic Data-driven Representation for Synthetic Image Detection [7.730666100347136]
合成画像検出における合成データ駆動表現の有効性を示す。
合成データを用いた最新の視覚表現学習者によって訓練された視覚変換器は,実画像と偽画像とを効果的に識別できることがわかった。
論文 参考訳(メタデータ) (2024-09-13T14:50:14Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning [22.4158195581231]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Identifying Invariant Texture Violation for Robust Deepfake Detection [17.306386179823576]
Invariant Texture Learning frameworkは,低画質で公開されたデータセットにのみアクセスすることができる。
本手法は, 被写体から転写したテクスチャによって, 被写体表面の微視的顔のテクスチャが必然的に侵害されることを前提とした。
論文 参考訳(メタデータ) (2020-12-19T03:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。