論文の概要: Fusion Transformer with Object Mask Guidance for Image Forgery Analysis
- arxiv url: http://arxiv.org/abs/2403.12229v2
- Date: Sat, 27 Apr 2024 15:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 23:05:49.264587
- Title: Fusion Transformer with Object Mask Guidance for Image Forgery Analysis
- Title(参考訳): 画像偽造解析のための物体マスク誘導型フュージョントランス
- Authors: Dimitrios Karageorgiou, Giorgos Kordopatis-Zilos, Symeon Papadopoulos,
- Abstract要約: OMG-Fuserは、様々な法医学的信号から情報を取り出すために設計された融合トランスフォーマーベースのネットワークである。
本手法は任意の数の法定信号で動作可能であり,解析に対象情報を利用する。
我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
- 参考スコア(独自算出の注目度): 9.468075384561947
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we introduce OMG-Fuser, a fusion transformer-based network designed to extract information from various forensic signals to enable robust image forgery detection and localization. Our approach can operate with an arbitrary number of forensic signals and leverages object information for their analysis -- unlike previous methods that rely on fusion schemes with few signals and often disregard image semantics. To this end, we design a forensic signal stream composed of a transformer guided by an object attention mechanism, associating patches that depict the same objects. In that way, we incorporate object-level information from the image. Each forensic signal is processed by a different stream that adapts to its peculiarities. A token fusion transformer efficiently aggregates the outputs of an arbitrary number of network streams and generates a fused representation for each image patch. We assess two fusion variants on top of the proposed approach: (i) score-level fusion that fuses the outputs of multiple image forensics algorithms and (ii) feature-level fusion that fuses low-level forensic traces directly. Both variants exceed state-of-the-art performance on seven datasets for image forgery detection and localization, with a relative average improvement of 12.1% and 20.4% in terms of F1. Our model is robust against traditional and novel forgery attacks and can be expanded with new signals without training from scratch. Our code is publicly available at: https://github.com/mever-team/omgfuser
- Abstract(参考訳): 本研究では,様々な法医学的信号から情報を抽出し,ロバストな画像フォージェリ検出とローカライゼーションを実現するための融合トランスフォーマーネットワークであるOMG-Fuserを紹介する。
我々のアプローチは、任意の数の法定信号で動作することができ、その分析にオブジェクト情報を利用することができます。
そこで我々は,物体の注意機構によって誘導される変圧器からなる法医学信号ストリームを設計し,同一の物体を表すパッチを関連付ける。
このようにして、画像からオブジェクトレベルの情報を取り込む。
各法医学信号は、その特異性に適応する異なるストリームによって処理される。
トークン融合変換器は、任意の数のネットワークストリームの出力を効率よく集約し、各画像パッチに対する融合表現を生成する。
提案手法上の2つの融合変種を評価する。
(i)複数の画像鑑定アルゴリズムの出力を融合するスコアレベル融合と
(ii)低レベルの法医学的痕跡を直接融合する特徴レベルの融合。
どちらの変種も画像偽造検出とローカライゼーションのための7つのデータセットの最先端性能を超えており、F1の相対的な平均改善は12.1%と20.4%である。
我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
私たちのコードは、https://github.com/mever-team/omgfuser.comで公開されています。
関連論文リスト
- DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion [10.713089596405053]
二相識別型オートエンコーダフレームワークであるDAE-Fuseは、シャープで自然な融合画像を生成する。
公共の赤外線可視、医用画像融合、下流オブジェクト検出データセットの実験は、我々の方法の優位性と一般化性を示している。
論文 参考訳(メタデータ) (2024-09-16T08:37:09Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Effective Image Tampering Localization via Enhanced Transformer and
Co-attention Fusion [5.691973573807887]
本稿では,2分岐拡張型トランスフォーマーエンコーダを用いた画像改ざんネットワーク(EITLNet)を提案する。
RGBとノイズストリームから抽出した特徴は、座標注意に基づく融合モジュールによって効果的に融合される。
論文 参考訳(メタデータ) (2023-09-17T15:43:06Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local
Cross-modal Attention [12.167049432063132]
本稿では,畳み込みエンコーダとトランスフォーマーベースのデコーダを組み合わせたハイブリッドモデルを提案する。
分岐融合モジュールは、2つの枝の特徴を適応的に融合させるように設計されている。
論文 参考訳(メタデータ) (2022-10-18T13:30:52Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。