論文の概要: CLUE: Leveraging Low-Rank Adaptation to Capture Latent Uncovered Evidence for Image Forgery Localization
- arxiv url: http://arxiv.org/abs/2508.07413v1
- Date: Sun, 10 Aug 2025 16:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.851151
- Title: CLUE: Leveraging Low-Rank Adaptation to Capture Latent Uncovered Evidence for Image Forgery Localization
- Title(参考訳): CLUE:イメージフォージェリローカライゼーションのためのLank Adaptation to Capture Latent Evidenceの活用
- Authors: Youqi Wang, Shunquan Tan, Rongxuan Peng, Bin Li, Jiwu Huang,
- Abstract要約: 画像編集ツールや生成AIのアクセシビリティ向上は、視覚的に説得力のある偽造物の普及につながっている。
本稿では、その内部生成過程を利用して、最先端(SOTA)テキスト・画像合成モデルのメカニズムを再利用する。
本稿では,Low- Rank Adaptation (LoRA) を用いてパラメータ効率よく安定拡散3 (SD3) を法定特徴抽出器として構成するフレームワークであるCLUEを提案する。
- 参考スコア(独自算出の注目度): 35.73353140683283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing accessibility of image editing tools and generative AI has led to a proliferation of visually convincing forgeries, compromising the authenticity of digital media. In this paper, in addition to leveraging distortions from conventional forgeries, we repurpose the mechanism of a state-of-the-art (SOTA) text-to-image synthesis model by exploiting its internal generative process, turning it into a high-fidelity forgery localization tool. To this end, we propose CLUE (Capture Latent Uncovered Evidence), a framework that employs Low- Rank Adaptation (LoRA) to parameter-efficiently reconfigure Stable Diffusion 3 (SD3) as a forensic feature extractor. Our approach begins with the strategic use of SD3's Rectified Flow (RF) mechanism to inject noise at varying intensities into the latent representation, thereby steering the LoRAtuned denoising process to amplify subtle statistical inconsistencies indicative of a forgery. To complement the latent analysis with high-level semantic context and precise spatial details, our method incorporates contextual features from the image encoder of the Segment Anything Model (SAM), which is parameter-efficiently adapted to better trace the boundaries of forged regions. Extensive evaluations demonstrate CLUE's SOTA generalization performance, significantly outperforming prior methods. Furthermore, CLUE shows superior robustness against common post-processing attacks and Online Social Networks (OSNs). Code is publicly available at https://github.com/SZAISEC/CLUE.
- Abstract(参考訳): 画像編集ツールや生成AIのアクセシビリティが向上し、視覚的に説得力のある偽造物が急増し、デジタルメディアの信頼性が向上した。
本稿では,従来のフォージェリーの歪みを利用したことに加えて,その内部生成過程を利用して,最先端(SOTA)テキスト・画像合成モデルの機構を再利用し,高忠実なフォージェリー・ローカライゼーション・ツールとする。
この目的のために,Low- Rank Adaptation (LoRA) を用いて安定拡散3 (SD3) を法定特徴抽出器として構成する CLUE (Capture Latent Uncovered Evidence) を提案する。
我々のアプローチはSD3のRectified Flow (RF) メカニズムの戦略的利用から始まり、様々な強度のノイズを潜伏表現に注入し、ロラチュード・デノナイジング法を操り、偽造の微妙な統計的不整合を増幅する。
提案手法は,潜伏解析を高レベルな意味的コンテキストと精密な空間的詳細に補完するため,パラメータに適応したSegment Anything Model(SAM)の画像エンコーダのコンテキスト特徴を組み込んだ。
大規模な評価はCLUEのSOTA一般化性能を示し、先行手法よりも大幅に優れていた。
さらに、CLUEは一般的なポストプロセッシング攻撃やオンラインソーシャルネットワーク(OSN)に対して優れた堅牢性を示す。
コードはhttps://github.com/SZAISEC/CLUEで公開されている。
関連論文リスト
- StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - OSCAR: Optical-aware Semantic Control for Aleatoric Refinement in Sar-to-Optical Translation [12.055938312320402]
新たなSAR-to-Optical(S2O)翻訳フレームワークが提案され、3つのコア技術コントリビューションが統合されている。
実験により,提案手法は最先端手法と比較して知覚的品質と意味的一貫性に優れることを示した。
論文 参考訳(メタデータ) (2026-01-11T09:57:04Z) - AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation [56.399153019429605]
この研究は、源動力学を無視すると、意味的手がかりを抑えるまたはマージする矛盾した軌跡が得られることを示している。
我々は、動的に変化するソース分布を固定されたターゲット分布にマッピングするものとして、テキストから3Dまでの最適化を再構成する。
AnchorDS(AnchorDS)は、画像の条件に応じた状態適応型ガイダンスを提供する、改良されたスコア蒸留機構である。
論文 参考訳(メタデータ) (2025-11-12T09:51:23Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - SDiFL: Stable Diffusion-Driven Framework for Image Forgery Localization [46.258797633731746]
既存のイメージフォージェリーローカライゼーション手法は、労働集約的で高価な注釈付きデータに依存している。
私たちは、SDのイメージ生成と強力な知覚能力の両方を、画像法医学のフレームワークに統合した最初の人物です。
我々のフレームワークは、広く使用されているベンチマークデータセットのパフォーマンスを最大12%向上させる。
論文 参考訳(メタデータ) (2025-08-27T18:02:09Z) - Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - Locally-Focused Face Representation for Sketch-to-Image Generation Using Noise-Induced Refinement [1.7409266903306055]
本稿では,初歩的な顔スケッチの高忠実度カラー画像への変換を著しく向上させる新しいディープラーニングフレームワークを提案する。
提案手法は,エンコーダ・デコーダアーキテクチャ内のブロックアテンション機構により,顔の特徴を効果的に捉え,強化する。
このモデルは、スケッチ・ツー・イメージ生成における新しい最先端の状態を設定し、スケッチの型を一般化し、法執行機関における犯罪識別のようなアプリケーションに対して堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-28T09:12:56Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral
Diffusion Model [18.25548360119976]
マルチスペクトル画像(MSI)におけるスナップショット圧縮画像(SCI)再構成の精度向上を目指した。
DiffSCIと呼ばれる新しいゼロショット拡散モデルを提案する。
我々は,DiffSCIが自己監督的,ゼロショット的アプローチよりも顕著な性能向上を示すことを示すため,広範囲な試験を行った。
論文 参考訳(メタデータ) (2023-11-19T20:27:14Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。