論文の概要: PromptForge-350k: A Large-Scale Dataset and Contrastive Framework for Prompt-Based AI Image Forgery Localization
- arxiv url: http://arxiv.org/abs/2603.29386v1
- Date: Tue, 31 Mar 2026 07:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.272877
- Title: PromptForge-350k: A Large-Scale Dataset and Contrastive Framework for Prompt-Based AI Image Forgery Localization
- Title(参考訳): PromptForge-350k: PromptベースのAIイメージフォージェリローカライゼーションのための大規模データセットとコントラストフレームワーク
- Authors: Jianpeng Wang, Haoyu Wang, Baoying Chen, Jishen Zeng, Yiming Qin, Yiqi Yang, Zhongjie Ba,
- Abstract要約: そこで我々は,編集領域の正確な接地トラスマスクを生成するための,完全に自動化されたマスクアノテートフレームワークを提案する。
また、3重ストリームバックボーンと画像内コントラスト学習を備えた効果的なフォージェリーローカライゼーションネットワークであるICL-Netを提案する。
提案手法は,PromptForge-350k上で62.5%のIoUを達成し,SOTA法を5.1%上回った。
- 参考スコア(独自算出の注目度): 20.545082186848287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid democratization of prompt-based AI image editing has recently exacerbated the risks associated with malicious content fabrication and misinformation. However, forgery localization methods targeting these emerging editing techniques remain significantly under-explored. To bridge this gap, we first introduce a fully automated mask annotating framework that leverages keypoint alignment and semantic space similarity to generate precise ground-truth masks for edited regions. Based on this framework, we construct PromptForge-350k, a large-scale forgery localization dataset covering four state-of-the-art prompt-based AI image editing models, thereby mitigating the data scarcity in this domain. Furthermore, we propose ICL-Net, an effective forgery localization network featuring a triple-stream backbone and intra-image contrastive learning. This design enables the model to capture highly robust and generalizable forensic features. Extensive experiments demonstrate that our method achieves an IoU of 62.5% on PromptForge-350k, outperforming SOTA methods by 5.1%. Additionally, it exhibits strong robustness against common degradations with an IoU drop of less than 1%, and shows promising generalization capabilities on unseen editing models, achieving an average IoU of 41.5%.
- Abstract(参考訳): プロンプトベースのAI画像編集の急速な民主化は、悪意のあるコンテンツ作成と誤情報に関連するリスクを悪化させた。
しかし、これらの新たな編集技法をターゲットとした偽のローカライゼーション手法は、いまだに未発見のままである。
このギャップを埋めるために、我々はまず、キーポイントアライメントとセマンティックスペースの類似性を利用して、編集された領域に対して正確な接地トラスマスクを生成する完全に自動化されたマスクアノテートフレームワークを導入する。
このフレームワークに基づいて、4つの最先端のプロンプトベースのAI画像編集モデルをカバーする大規模なフォージェリローカライゼーションデータセットであるPromptForge-350kを構築し、この領域におけるデータの不足を軽減する。
さらに,3重ストリームバックボーンと画像内コントラスト学習を備えた効果的なフォージェリーローカライゼーションネットワークであるICL-Netを提案する。
この設計により、モデルは高度に堅牢で一般化可能な法医学的特徴を捉えることができる。
実験の結果,PromptForge-350kで62.5%のIoUを実現し,SOTA法を5.1%上回った。
さらに、IoUの減少率が1%未満で、一般的な劣化に対して強い堅牢性を示し、未確認の編集モデルに対して有望な一般化能力を示し、平均的なIoUの41.5%を達成する。
関連論文リスト
- FeatDistill: A Feature Distillation Enhanced Multi-Expert Ensemble Framework for Robust AI-generated Image Detection [14.180599240051238]
FeatDistillは、特徴蒸留とマルチエキスパートアンサンブルを統合する、AI生成の画像検出フレームワークである。
NTIRE Challenge on Robust AI-Generated Image Detection in the Wildのために開発された。
論文 参考訳(メタデータ) (2026-03-23T12:55:31Z) - Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution [3.103291412074661]
本研究では,合成画像検出に固有の一般化問題に対処する新しい2段階検出フレームワークを提案する。
提案手法は,既存手法よりも5.2ポイント向上した平均検出精度91.3%を実現する。
論文 参考訳(メタデータ) (2025-11-20T16:53:24Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Webly-Supervised Image Manipulation Localization via Category-Aware Auto-Annotation [49.83611963142304]
画像編集ツールを使って操作された画像は、視聴者を誤解させ、社会保障に重大なリスクをもたらす可能性がある。
この領域の主な障壁の1つは、データ取得の高コストと、高品質な注釈付きデータセットの深刻な欠如である。
我々は、Webから手動で鍛造された画像の大規模なコレクションと、自動生成されたアノテーションを利用する。
我々はMIMLv2を構築する。MIMLv2は大規模で多彩で高品質なデータセットで、246,212個の手動鍛造画像とピクセルレベルのマスクアノテーションを備えている。
論文 参考訳(メタデータ) (2025-08-28T16:44:40Z) - SDiFL: Stable Diffusion-Driven Framework for Image Forgery Localization [46.258797633731746]
既存のイメージフォージェリーローカライゼーション手法は、労働集約的で高価な注釈付きデータに依存している。
私たちは、SDのイメージ生成と強力な知覚能力の両方を、画像法医学のフレームワークに統合した最初の人物です。
我々のフレームワークは、広く使用されているベンチマークデータセットのパフォーマンスを最大12%向上させる。
論文 参考訳(メタデータ) (2025-08-27T18:02:09Z) - No Pixel Left Behind: A Detail-Preserving Architecture for Robust High-Resolution AI-Generated Image Detection [15.139983859649922]
High-Resolution Detail-Aggregation Network (HiDA-Net)は、ピクセルが残らないようにする新しいフレームワークである。
HiDA-Netは最先端を実現し、挑戦的なChameleonデータセットでは13%以上、HiRes-50Kでは10%以上の精度向上を実現しています。
論文 参考訳(メタデータ) (2025-08-24T13:03:16Z) - CLUE: Leveraging Low-Rank Adaptation to Capture Latent Uncovered Evidence for Image Forgery Localization [35.73353140683283]
画像編集ツールや生成AIのアクセシビリティ向上は、視覚的に説得力のある偽造物の普及につながっている。
本稿では、その内部生成過程を利用して、最先端(SOTA)テキスト・画像合成モデルのメカニズムを再利用する。
本稿では,Low- Rank Adaptation (LoRA) を用いてパラメータ効率よく安定拡散3 (SD3) を法定特徴抽出器として構成するフレームワークであるCLUEを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:22:30Z) - So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。