論文の概要: MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task
Image Manipulation Detection and Localization
- arxiv url: http://arxiv.org/abs/2211.03140v1
- Date: Sun, 6 Nov 2022 14:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:19:56.115389
- Title: MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task
Image Manipulation Detection and Localization
- Title(参考訳): MSMG-Net:マルチタスク画像操作検出と局所化のためのマルチスケールマルチグラデーション・メトワーク
- Authors: Fengsheng Wang, Leyi Wei
- Abstract要約: マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。
我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。
MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advances of image editing techniques in recent years, image
manipulation detection has attracted considerable attention since the
increasing security risks posed by tampered images. To address these
challenges, a novel multi-scale multi-grained deep network (MSMG-Net) is
proposed to automatically identify manipulated regions. In our MSMG-Net, a
parallel multi-scale feature extraction structure is used to extract
multi-scale features. Then the multi-grained feature learning is utilized to
perceive object-level semantics relation of multi-scale features by introducing
the shunted self-attention. To fuse multi-scale multi-grained features, global
and local feature fusion block are designed for manipulated region segmentation
by a bottom-up approach and multi-level feature aggregation block is designed
for edge artifacts detection by a top-down approach. Thus, MSMG-Net can
effectively perceive the object-level semantics and encode the edge artifact.
Experimental results on five benchmark datasets justify the superior
performance of the proposed method, outperforming state-of-the-art manipulation
detection and localization methods. Extensive ablation experiments and feature
visualization demonstrate the multi-scale multi-grained learning can present
effective visual representations of manipulated regions. In addition, MSMG-Net
shows better robustness when various post-processing methods further manipulate
images.
- Abstract(参考訳): 近年,画像編集技術の急速な進歩に伴い,画像改ざんによるセキュリティリスクの増加に伴い,画像操作検出が注目されている。
これらの課題に対処するために,マルチスケール多粒深層ネットワーク (msmg-net) を提案する。
我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。
次に,複数の粒度特徴学習を用いて,散逸した自己認識を導入することにより,多スケール特徴のオブジェクトレベルの意味関係を知覚する。
マルチスケールのマルチグレード特徴を融合するために、ボトムアップアプローチによる領域分割操作のためにグローバルおよびローカル特徴融合ブロックを設計、トップダウンアプローチによるエッジアーティファクト検出のためにマルチレベル特徴集約ブロックをデザインする。
したがって、MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードすることができる。
5つのベンチマークデータセットにおける実験結果は,提案手法の優れた性能を正当化し,最先端のマニピュレーション検出およびローカライズ手法を上回っている。
広範囲のアブレーション実験と特徴の可視化により、マルチスケール多粒学習は、操作された領域の効果的な視覚的表現を示すことができる。
さらに、MSMG-Netは、様々な後処理手法がさらに画像を操作した場合、より堅牢性を示す。
関連論文リスト
- Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-spectral Class Center Network for Face Manipulation Detection and
Localization [54.89350610668392]
本稿では、ピクセルレベルのアノテーションを導入してFaceForensics++データセットを再構築し、改ざんした領域をローカライズするための広範なベンチマークを構築する。
次に,顔の操作検出と局所化のために,MSCCNet(Multi-Spectral Class Center Network)を提案する。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Progressive Multi-scale Fusion Network for RGB-D Salient Object
Detection [9.099589602551575]
本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導型特徴集合モジュールを提案する。
提案フレームワークは,異なるモードの2つの特徴を効果的に組み合わせ,誤った深さ特徴の影響を軽減する。
さらに,マスク誘導型改良モジュール(MGRM)を導入し,高レベルの意味的特徴を補完し,マルチスケール融合から無関係な特徴を減らす。
論文 参考訳(メタデータ) (2021-06-07T20:02:39Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Image Manipulation Detection by Multi-View Multi-Scale Supervision [11.319080833880307]
画像操作検出の主な課題は、新しいデータの操作に敏感な一般化可能な特徴の学習方法である。
本稿では,多視点特徴学習とマルチスケール監視による両面の考察を行う。
我々の思考はMVSS-Netと呼ばれる新しいネットワークによって実現される。
論文 参考訳(メタデータ) (2021-04-14T13:05:58Z) - MGML: Multi-Granularity Multi-Level Feature Ensemble Network for Remote
Sensing Scene Classification [15.856162817494726]
本稿では,多言語多層特徴アンサンブルネットワーク(MGML-FENet)を提案する。
提案ネットワークは、従来の最新(SOTA)ネットワークよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-29T02:18:11Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。