論文の概要: CLUE: Leveraging Low-Rank Adaptation to Capture Latent Uncovered Evidence for Image Forgery Localization
- arxiv url: http://arxiv.org/abs/2508.07413v1
- Date: Sun, 10 Aug 2025 16:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.851151
- Title: CLUE: Leveraging Low-Rank Adaptation to Capture Latent Uncovered Evidence for Image Forgery Localization
- Title(参考訳): CLUE:イメージフォージェリローカライゼーションのためのLank Adaptation to Capture Latent Evidenceの活用
- Authors: Youqi Wang, Shunquan Tan, Rongxuan Peng, Bin Li, Jiwu Huang,
- Abstract要約: 画像編集ツールや生成AIのアクセシビリティ向上は、視覚的に説得力のある偽造物の普及につながっている。
本稿では、その内部生成過程を利用して、最先端(SOTA)テキスト・画像合成モデルのメカニズムを再利用する。
本稿では,Low- Rank Adaptation (LoRA) を用いてパラメータ効率よく安定拡散3 (SD3) を法定特徴抽出器として構成するフレームワークであるCLUEを提案する。
- 参考スコア(独自算出の注目度): 35.73353140683283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing accessibility of image editing tools and generative AI has led to a proliferation of visually convincing forgeries, compromising the authenticity of digital media. In this paper, in addition to leveraging distortions from conventional forgeries, we repurpose the mechanism of a state-of-the-art (SOTA) text-to-image synthesis model by exploiting its internal generative process, turning it into a high-fidelity forgery localization tool. To this end, we propose CLUE (Capture Latent Uncovered Evidence), a framework that employs Low- Rank Adaptation (LoRA) to parameter-efficiently reconfigure Stable Diffusion 3 (SD3) as a forensic feature extractor. Our approach begins with the strategic use of SD3's Rectified Flow (RF) mechanism to inject noise at varying intensities into the latent representation, thereby steering the LoRAtuned denoising process to amplify subtle statistical inconsistencies indicative of a forgery. To complement the latent analysis with high-level semantic context and precise spatial details, our method incorporates contextual features from the image encoder of the Segment Anything Model (SAM), which is parameter-efficiently adapted to better trace the boundaries of forged regions. Extensive evaluations demonstrate CLUE's SOTA generalization performance, significantly outperforming prior methods. Furthermore, CLUE shows superior robustness against common post-processing attacks and Online Social Networks (OSNs). Code is publicly available at https://github.com/SZAISEC/CLUE.
- Abstract(参考訳): 画像編集ツールや生成AIのアクセシビリティが向上し、視覚的に説得力のある偽造物が急増し、デジタルメディアの信頼性が向上した。
本稿では,従来のフォージェリーの歪みを利用したことに加えて,その内部生成過程を利用して,最先端(SOTA)テキスト・画像合成モデルの機構を再利用し,高忠実なフォージェリー・ローカライゼーション・ツールとする。
この目的のために,Low- Rank Adaptation (LoRA) を用いて安定拡散3 (SD3) を法定特徴抽出器として構成する CLUE (Capture Latent Uncovered Evidence) を提案する。
我々のアプローチはSD3のRectified Flow (RF) メカニズムの戦略的利用から始まり、様々な強度のノイズを潜伏表現に注入し、ロラチュード・デノナイジング法を操り、偽造の微妙な統計的不整合を増幅する。
提案手法は,潜伏解析を高レベルな意味的コンテキストと精密な空間的詳細に補完するため,パラメータに適応したSegment Anything Model(SAM)の画像エンコーダのコンテキスト特徴を組み込んだ。
大規模な評価はCLUEのSOTA一般化性能を示し、先行手法よりも大幅に優れていた。
さらに、CLUEは一般的なポストプロセッシング攻撃やオンラインソーシャルネットワーク(OSN)に対して優れた堅牢性を示す。
コードはhttps://github.com/SZAISEC/CLUEで公開されている。
関連論文リスト
- Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - Locally-Focused Face Representation for Sketch-to-Image Generation Using Noise-Induced Refinement [1.7409266903306055]
本稿では,初歩的な顔スケッチの高忠実度カラー画像への変換を著しく向上させる新しいディープラーニングフレームワークを提案する。
提案手法は,エンコーダ・デコーダアーキテクチャ内のブロックアテンション機構により,顔の特徴を効果的に捉え,強化する。
このモデルは、スケッチ・ツー・イメージ生成における新しい最先端の状態を設定し、スケッチの型を一般化し、法執行機関における犯罪識別のようなアプリケーションに対して堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-28T09:12:56Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral
Diffusion Model [18.25548360119976]
マルチスペクトル画像(MSI)におけるスナップショット圧縮画像(SCI)再構成の精度向上を目指した。
DiffSCIと呼ばれる新しいゼロショット拡散モデルを提案する。
我々は,DiffSCIが自己監督的,ゼロショット的アプローチよりも顕著な性能向上を示すことを示すため,広範囲な試験を行った。
論文 参考訳(メタデータ) (2023-11-19T20:27:14Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。