論文の概要: LEGION: Learning to Ground and Explain for Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2503.15264v1
- Date: Wed, 19 Mar 2025 14:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:18.771155
- Title: LEGION: Learning to Ground and Explain for Synthetic Image Detection
- Title(参考訳): LEGION:合成画像検出のための地上学習と説明
- Authors: Hengrui Kang, Siwei Wen, Zichen Wen, Junyan Ye, Weijia Li, Peilin Feng, Baichuan Zhou, Bin Wang, Dahua Lin, Linfeng Zhang, Conghui He,
- Abstract要約: 提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。
4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。
人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
- 参考スコア(独自算出の注目度): 49.958951540410816
- License:
- Abstract: The rapid advancements in generative technology have emerged as a double-edged sword. While offering powerful tools that enhance convenience, they also pose significant social concerns. As defenders, current synthetic image detection methods often lack artifact-level textual interpretability and are overly focused on image manipulation detection, and current datasets usually suffer from outdated generators and a lack of fine-grained annotations. In this paper, we introduce SynthScars, a high-quality and diverse dataset consisting of 12,236 fully synthetic images with human-expert annotations. It features 4 distinct image content types, 3 categories of artifacts, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels. Furthermore, we propose LEGION (LEarning to Ground and explain for Synthetic Image detectiON), a multimodal large language model (MLLM)-based image forgery analysis framework that integrates artifact detection, segmentation, and explanation. Building upon this capability, we further explore LEGION as a controller, integrating it into image refinement pipelines to guide the generation of higher-quality and more realistic images. Extensive experiments show that LEGION outperforms existing methods across multiple benchmarks, particularly surpassing the second-best traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score. Moreover, the refined images generated under its guidance exhibit stronger alignment with human preferences. The code, model, and dataset will be released.
- Abstract(参考訳): 生成技術の急速な進歩は、両刃の剣として現れている。
利便性を高める強力なツールを提供する一方で、社会的な懸念も大きい。
ディフェンダーとして、現在の合成画像検出法は、アーティファクトレベルのテキスト解釈性に欠けることが多く、画像操作検出に過度に重点を置いており、現在のデータセットは通常、時代遅れのジェネレータと細かいアノテーションの欠如に悩まされている。
本稿では,12,236個の完全合成画像からなる高品質で多様なデータセットであるSynthScarsを紹介する。
4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。
さらに,多モード大言語モデル(MLLM)に基づく画像フォージェリ解析フレームワークであるLEGION(Learning to Ground and explain for Synthetic Image DetectiON)を提案する。
この能力に基づいて、LIGIONをコントローラとして探索し、高画質でリアルな画像の生成を導くために、画像改善パイプラインに統合する。
大規模な実験により、LEGIONは複数のベンチマークで既存の手法よりも優れており、特にSynthScarsの伝統的な専門家はmIoUで3.31%、F1スコアで7.75%を上回っている。
さらに、そのガイダンスに基づいて生成された精細な画像は、人間の嗜好とより強く一致している。
コード、モデル、データセットがリリースされる。
関連論文リスト
- Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting [0.0]
本研究では,新しいソナー画像合成フレームワーク,Synth-SONARを提案する。
まず、ジェネレーティブAIベースのスタイルインジェクション技術と、公開されている実/シミュレーションデータを統合する。
第二に、二重テキスト条件ソナー拡散モデル階層は、粗くきめ細かなソナー画像を品質と多様性を向上して合成する。
第3に、高レベル(粗度)と低レベル(詳細)のテキストベースのソナー生成手法は、視覚言語モデル(VLM)とGPTプロンプトで利用可能な高度な意味情報を活用する。
論文 参考訳(メタデータ) (2024-10-11T08:27:25Z) - Improving Synthetic Image Detection Towards Generalization: An Image Transformation Perspective [45.210030086193775]
現在の合成画像検出(SID)パイプラインは、主に普遍的なアーティファクト機能を構築することを目的としている。
3つの簡単な画像変換を持つ軽量かつ効率的な検出器SAFEを提案する。
我々のパイプラインは、新しい最先端のパフォーマンスを実現し、既存の手法に対する平均精度は4.5%、平均精度は2.9%向上した。
論文 参考訳(メタデータ) (2024-08-13T09:01:12Z) - SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model [15.616316848126642]
総合的なアーティファクト分類法を開発し、微調整視覚言語モデル(VLM)のためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。
微調整されたVLMは、アーティファクトを識別し、ベースラインを25.66%上回る優れた能力を示す。
論文 参考訳(メタデータ) (2024-02-28T05:54:02Z) - HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning [22.4158195581231]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。