論文の概要: EDGER: EDge-Guided with HEatmap Refinement for Generalizable Image Forgery Localization
- arxiv url: http://arxiv.org/abs/2605.12002v1
- Date: Tue, 12 May 2026 11:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.833046
- Title: EDGER: EDge-Guided with HEatmap Refinement for Generalizable Image Forgery Localization
- Title(参考訳): EDGER: 一般化可能な画像フォージェリーローカライゼーションのためのHeatmapリファインメント付きEDGE
- Authors: Minh-Khoa Le-Phan, Minh-Hoang Le, Minh-Triet Tran, Trong-Le Do,
- Abstract要約: 本稿では、任意の解像度画像中の操作領域をローカライズするパッチベースのデュアルブランチフレームワークであるEDGERを提案する。
我々は,周波数に基づくエッジキューとパッチレベルの合成先行の相補的役割を,高精度で解像度に依存しないローカライゼーションの駆動において強調する。
提案手法はマルチメガピクセル画像にスケールし,強力なクロスドメイン一般化を示す。
- 参考スコア(独自算出の注目度): 8.588817718552418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided inpainting has made image forgery increasingly realistic, challenging both SID and IFL. However, existing methods often struggle to point out suspicious signals across domains. To address this problem, we propose EDGER, a patch-based, dual-branch framework that localizes manipulated regions in arbitrary resolution images without sacrificing native resolution. The first branch, Edge-Guided Segmentation, introduces a Frequency-based Edge Detector to emphasize high-frequency inconsistencies at manipulation boundaries, and fine-tunes a SegFormer to fuse RGB and edge features for pixel-level masks. Since edge evidence is most informative only when patches contain both authentic and manipulated pixels, we complement Edge-Guided Segmentation with a Synthetic Heatmapping branch, a classification-based localizer that fine-tunes a CLIP-ViT image encoder with LoRA to flag fully synthetic patches. Together, Synthetic Heatmapping provides coarse, patch-level synthetic priors, while Edge-Guided Segmentation sharpens boundaries within partially manipulated patches, yielding comprehensive localization. Evaluated in the MediaEval 2025, SynthIM challenge, Manipulated Region Localization Task's setting, our approach scales to multi-megapixel imagery and exhibits strong cross-domain generalization. Extensive ablations highlight the complementary roles of frequency-based edge cues and patch-level synthetic priors in driving accurate, resolution-agnostic localization.
- Abstract(参考訳): テキストガイドによるインペイントは、画像の偽造をますます現実的なものにし、SIDとIFLの両方に挑戦している。
しかし、既存の手法では藩間の不審な信号の指摘に苦慮することが多い。
この問題に対処するために、ネイティブ解像度を犠牲にすることなく、任意の解像度画像に操作済み領域をローカライズするパッチベースのデュアルブランチフレームワークであるEDGERを提案する。
最初のブランチであるEdge-Guided Segmentationでは、周波数ベースのEdge Detectorを導入して、操作境界における高周波の不整合を強調し、SegFormerを微調整することで、RGBとピクセルレベルのマスクのエッジ機能を融合する。
エッジエビデンス(エッジエビデンス,エッジエビデンス,エッジエビデンス)は,画像エンコーダをLORAで微調整し,完全合成パッチのフラグ付けを行うSynthetic Heatmappingブランチでエッジガイドセグメンテーションを補完する。
synthetic Heatmappingは、粗いパッチレベルの合成プリエントを提供し、Edge-Guided Segmentationは部分的に操作されたパッチ内のバウンダリを鋭くし、包括的なローカライゼーションをもたらす。
The MediaEval 2025, SynthIM Challenge, Manipulated Region Localization Task's setting, our approach scales to multi-megapel images and exhibits strong cross-domain generalization。
広汎な改善は、周波数ベースのエッジキューとパッチレベルの合成前駆体が正確な解像度に依存しないローカライゼーションを駆動する上での相補的な役割を浮き彫りにする。
関連論文リスト
- SAPL: Semantic-Agnostic Prompt Learning in CLIP for Weakly Supervised Image Manipulation Localization [45.19935082419337]
悪意のある画像操作は公衆の安全を脅かし、効率的な位置決め方法を必要とする。
既存の弱教師付き手法は画像レベルのバイナリラベルに依存し、グローバルな分類に重点を置いている。
本稿では,CLIPにおける意味非依存型プロンプト学習(SAPL)を提案し,非意味的,境界中心的なキューを意図的に符号化するテキストプロンプトを学習する。
論文 参考訳(メタデータ) (2026-01-09T07:25:55Z) - Towards Imperceptible JPEG Image Hiding: Multi-range Representations-driven Adversarial Stego Generation [19.5984577708016]
JPEG画像隠蔽のためのMRAGと呼ばれるマルチレンジ表現駆動型逆スチーゴ生成フレームワークを提案する。
MRAGは、畳み込みの局所レンジ特性と変換器のグローバルレンジモデリングを統合する。
シュプロゲートステガナライザーの分類された特徴に基づいて、カバーとステゴ間の敵対的損失を計算する。
論文 参考訳(メタデータ) (2025-07-11T06:45:07Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - GlobalMamba: Global Image Serialization for Vision Mamba [73.50475621164037]
視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。
既存のほとんどの方法はパッチベースの画像トークン化を採用し、因果処理のためにそれらを1Dシーケンスにフラット化する。
本稿では,グローバルな画像シリアライズ手法を提案し,その画像を因果トークンのシーケンスに変換する。
論文 参考訳(メタデータ) (2024-10-14T09:19:05Z) - Decomposition-based Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation [30.606689882397223]
非教師なし領域適応(UDA)技術は、地球科学のセマンティックセグメンテーションに不可欠である。
高レベルの特徴空間におけるドメインアライメントに焦点を当てた既存のUDA手法の多くは、局所的な空間的詳細とグローバルな文脈的意味論を同時に維持するのに苦労している。
ドメイン不変表現学習を導くための新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:13:49Z) - Automatic Registration of Images with Inconsistent Content Through
Line-Support Region Segmentation and Geometrical Outlier Removal [17.90609572352273]
本稿では,線支持領域分割と幾何外乱除去(ALRS-GOR)による自動画像登録手法を提案する。
アフィン変形と矛盾した内容を含む画像の登録に関する問題に対処するように設計されている。
提案手法の評価には,アフィン変形を模擬した空中画像など,様々な画像セットが検討されている。
論文 参考訳(メタデータ) (2022-04-02T10:47:16Z) - DSNet: A Dual-Stream Framework for Weakly-Supervised Gigapixel Pathology
Image Analysis [78.78181964748144]
スライド画像全体(WSI)を分類するための弱教師付きフレームワークを提案する。
WSIは通常、パッチレベルのラベルを持つパッチワイド分類によって処理される。
イメージレベルのラベルのみの場合、パッチの外観とイメージレベルのラベルの矛盾のため、パッチの分類はサブ最適となる。
論文 参考訳(メタデータ) (2021-09-13T09:10:43Z) - TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。
提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-08-10T08:22:05Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。