論文の概要: Can Image Splicing and Copy-Move Forgery Be Detected by the Same Model? Forensim: An Attention-Based State-Space Approach
- arxiv url: http://arxiv.org/abs/2602.10079v1
- Date: Tue, 10 Feb 2026 18:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.749902
- Title: Can Image Splicing and Copy-Move Forgery Be Detected by the Same Model? Forensim: An Attention-Based State-Space Approach
- Title(参考訳): イメージスプライシングとコピー・モーブ・フォージェリは同一モデルで検出できるか? Forensim: Antention-Based State-Space Approach
- Authors: Soumyaroop Nandi, Prem Natarajan,
- Abstract要約: Forensimは画像偽造検出のための注目ベースの状態空間フレームワークである。
操作された(ターゲット)領域とソース領域の両方を共同でローカライズする。
Forensimは標準ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 8.024142807011378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Forensim, an attention-based state-space framework for image forgery detection that jointly localizes both manipulated (target) and source regions. Unlike traditional approaches that rely solely on artifact cues to detect spliced or forged areas, Forensim is designed to capture duplication patterns crucial for understanding context. In scenarios such as protest imagery, detecting only the forged region, for example a duplicated act of violence inserted into a peaceful crowd, can mislead interpretation, highlighting the need for joint source-target localization. Forensim outputs three-class masks (pristine, source, target) and supports detection of both splicing and copy-move forgeries within a unified architecture. We propose a visual state-space model that leverages normalized attention maps to identify internal similarities, paired with a region-based block attention module to distinguish manipulated regions. This design enables end-to-end training and precise localization. Forensim achieves state-of-the-art performance on standard benchmarks. We also release CMFD-Anything, a new dataset addressing limitations of existing copy-move forgery datasets.
- Abstract(参考訳): Forensimは画像偽造検出のためのアテンションベースの状態空間フレームワークで、操作された(ターゲット)領域とソース領域の両方を共同でローカライズする。
複製された領域や偽造された領域を検出するために人工的な手がかりにのみ依存する伝統的なアプローチとは異なり、フォレンシムは文脈を理解するのに不可欠な複製パターンを捉えるように設計されている。
抗議のイメージのようなシナリオでは、例えば平和な群衆に挿入された暴力の重複行為のような、偽造された地域のみを検出することは、解釈を誤解させ、共同ソース・ターゲットのローカライゼーションの必要性を強調している。
Forensimは3種類のマスク(プリスチン、ソース、ターゲット)を出力し、統一アーキテクチャ内でスプライシングとコピーモーブの両方の偽造物の検出をサポートする。
本研究では、正規化された注意マップを利用して内部の類似性を識別し、操作された領域を識別するために、領域ベースのブロックアテンションモジュールと組み合わせた視覚的状態空間モデルを提案する。
この設計により、エンドツーエンドのトレーニングと正確なローカライゼーションが可能になる。
Forensimは標準ベンチマークで最先端のパフォーマンスを達成する。
また、既存のコピーモーブフォージェリデータセットの制限に対処する新しいデータセットであるCMFD-Anythingをリリースしています。
関連論文リスト
- Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。
画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。
本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T07:35:09Z) - Object-level Copy-Move Forgery Image Detection based on Inconsistency Mining [25.174869954072648]
Inconsistency Mining(IMNet)に基づくオブジェクトレベルのコピー・モーブ偽画像検出を提案する。
オブジェクトレベルの完全なターゲットを得るために、ソースと改ざんされた領域のプロトタイプをカスタマイズし、動的に更新する。
提案するIMNetの有効性とロバスト性を検証した3つの公開データセットについて実験を行った。
論文 参考訳(メタデータ) (2024-03-31T09:01:17Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z) - Copy Move Source-Target Disambiguation through Multi-Branch CNNs [38.75957215447834]
そこで本研究では,コピー・ムーブ・フォージェリのソース領域とターゲット領域を同定し,タグ付き領域の正確な位置決めを可能にする手法を提案する。
まず,一般のコピー-ムーブ検出器によって検出された2つのほぼ重複領域間の領域を決定することが目的である仮説テストフレームワークに問題を投入した。
そして,コピー移動領域における人工物の存在と境界の不整合を明らかにすることができる特徴セットを学習することにより,仮説テスト問題を解決するマルチブランチCNNアーキテクチャを設計する。
論文 参考訳(メタデータ) (2019-12-29T11:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。