論文の概要: SDiFL: Stable Diffusion-Driven Framework for Image Forgery Localization
- arxiv url: http://arxiv.org/abs/2508.20182v1
- Date: Wed, 27 Aug 2025 18:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.649489
- Title: SDiFL: Stable Diffusion-Driven Framework for Image Forgery Localization
- Title(参考訳): SDiFL:イメージフォージェリローカライゼーションのための安定拡散駆動フレームワーク
- Authors: Yang Su, Shunquan Tan, Jiwu Huang,
- Abstract要約: 既存のイメージフォージェリーローカライゼーション手法は、労働集約的で高価な注釈付きデータに依存している。
私たちは、SDのイメージ生成と強力な知覚能力の両方を、画像法医学のフレームワークに統合した最初の人物です。
我々のフレームワークは、広く使用されているベンチマークデータセットのパフォーマンスを最大12%向上させる。
- 参考スコア(独自算出の注目度): 46.258797633731746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by the new generation of multi-modal large models, such as Stable Diffusion (SD), image manipulation technologies have advanced rapidly, posing significant challenges to image forensics. However, existing image forgery localization methods, which heavily rely on labor-intensive and costly annotated data, are struggling to keep pace with these emerging image manipulation technologies. To address these challenges, we are the first to integrate both image generation and powerful perceptual capabilities of SD into an image forensic framework, enabling more efficient and accurate forgery localization. First, we theoretically show that the multi-modal architecture of SD can be conditioned on forgery-related information, enabling the model to inherently output forgery localization results. Then, building on this foundation, we specifically leverage the multimodal framework of Stable DiffusionV3 (SD3) to enhance forgery localization performance.We leverage the multi-modal processing capabilities of SD3 in the latent space by treating image forgery residuals -- high-frequency signals extracted using specific highpass filters -- as an explicit modality. This modality is fused into the latent space during training to enhance forgery localization performance. Notably, our method fully preserves the latent features extracted by SD3, thereby retaining the rich semantic information of the input image. Experimental results show that our framework achieves up to 12% improvements in performance on widely used benchmarking datasets compared to current state-of-the-art image forgery localization models. Encouragingly, the model demonstrates strong performance on forensic tasks involving real-world document forgery images and natural scene forging images, even when such data were entirely unseen during training.
- Abstract(参考訳): 安定拡散(SD)のような新しい世代のマルチモーダル大型モデルによって、画像操作技術は急速に進歩し、画像法医学において重要な課題となっている。
しかし、労働集約的で高価な注釈付きデータに大きく依存している既存の画像偽造法は、これらの新興画像操作技術に追随する努力を続けている。
これらの課題に対処するため、私たちは、SDのイメージ生成と強力な知覚能力の両方を画像法医学フレームワークに統合し、より効率的で正確なフォージェリーローカライゼーションを可能にした。
まず,SDのマルチモーダルアーキテクチャをフォージェリー関連情報に条件付けすることにより,モデルが本質的にフォージェリーローカライゼーション結果を出力できることを理論的に示す。
そして,この基盤を基盤として,安定拡散V3 (SD3) のマルチモーダル・フレームワークを活用し,画像のフォージェリー残差(特定のハイパスフィルタを用いて抽出した高周波信号)を明示的なモダリティとして扱うことにより,遅延空間におけるSD3のマルチモーダル・プロセッシング機能を活用する。
このモダリティは、フォージェリーローカライゼーション性能を高めるためにトレーニング中に潜伏空間に融合される。
特に,SD3により抽出された潜伏特徴を完全に保存し,入力画像のリッチな意味情報を保持する。
実験結果から,我々のフレームワークは,現在最先端の画像フォージェリーローカライゼーションモデルと比較して,広く使用されているベンチマークデータセットの性能が最大12%向上していることがわかった。
このモデルでは,実世界の文書偽造画像や自然シーンの偽造画像を含む法医学的タスクにおいて,トレーニング中にそのデータが全く見えなかった場合でも,強いパフォーマンスを示す。
関連論文リスト
- CLUE: Leveraging Low-Rank Adaptation to Capture Latent Uncovered Evidence for Image Forgery Localization [35.73353140683283]
画像編集ツールや生成AIのアクセシビリティ向上は、視覚的に説得力のある偽造物の普及につながっている。
本稿では、その内部生成過程を利用して、最先端(SOTA)テキスト・画像合成モデルのメカニズムを再利用する。
本稿では,Low- Rank Adaptation (LoRA) を用いてパラメータ効率よく安定拡散3 (SD3) を法定特徴抽出器として構成するフレームワークであるCLUEを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:22:30Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文 参考訳(メタデータ) (2023-05-24T16:33:02Z) - Multiscale Structure Guided Diffusion for Image Deblurring [24.09642909404091]
拡散確率モデル (DPM) は画像の劣化に用いられている。
暗黙のバイアスとして、単純だが効果的なマルチスケール構造ガイダンスを導入する。
目に見えないデータのアーティファクトが少ないほど、より堅牢なデブロアリング結果を示します。
論文 参考訳(メタデータ) (2022-12-04T10:40:35Z) - GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection [29.118321046339656]
画像全体から複数スケールのグローバルな特徴と、AI合成画像検出のための情報パッチからの洗練されたローカル特徴を組み合わせることで、リッチで差別的な表現を学習するフレームワークを提案する。
GLFFは、マルチスケールの意味的特徴を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチの2つのブランチから情報を抽出する。
論文 参考訳(メタデータ) (2022-11-16T02:03:20Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。