論文の概要: Image Forgery Localization with State Space Models
- arxiv url: http://arxiv.org/abs/2412.11214v1
- Date: Sun, 15 Dec 2024 15:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:22.436058
- Title: Image Forgery Localization with State Space Models
- Title(参考訳): 状態空間モデルを用いた画像偽造位置決め
- Authors: Zijie Lou, Gang Cao,
- Abstract要約: LoMaは,大域的画素依存性モデリングのための選択状態空間(S6)モデルと局所的画素依存性モデリングのための反転残差CNNを利用する,新しい画像フォージェリローカライゼーション手法である。
提案手法では,まず,空間領域をトラバースし,改ざんした画像を順序付きパッチシーケンスに変換するために,アトラス選択的スキャンを用いたMixed-SSMブロックを提案する。
局所的特徴抽出を強化するために補助的畳み込み分岐を導入する。
- 参考スコア(独自算出の注目度): 2.3838507844983248
- License:
- Abstract: Pixel dependency modeling from tampered images is pivotal for image forgery localization. Current approaches predominantly rely on convolutional neural network (CNN) or Transformer-based models, which often either lack sufficient receptive fields or entail significant computational overheads. In this paper, we propose LoMa, a novel image forgery localization method that leverages the Selective State Space (S6) model for global pixel dependency modeling and inverted residual CNN for local pixel dependency modeling. Our method introduces the Mixed-SSM Block, which initially employs atrous selective scan to traverse the spatial domain and convert the tampered image into order patch sequences, and subsequently applies multidirectional S6 modeling. In addition, an auxiliary convolutional branch is introduced to enhance local feature extraction. This design facilitates the efficient extraction of global dependencies while upholding linear complexity. Upon modeling the pixel dependency with the SSM and CNN blocks, the pixel-wise forgery localization results are obtained by a simple MLP decoder. Extensive experimental results validate the superiority of LoMa over CNN-based and Transformer-based state-of-the-arts.
- Abstract(参考訳): 改ざん画像からの画素依存性のモデリングは、画像フォージェリローカライゼーションにおいて重要である。
現在のアプローチは、畳み込みニューラルネットワーク(CNN)やTransformerベースのモデルに大きく依存している。
本稿では,大域画素依存モデリングのための選択状態空間(S6)モデルと局所画素依存モデリングのための反転残差CNNを利用する,新たな画像フォージェリーローカライゼーション手法であるLoMaを提案する。
提案手法では,まず空間領域をトラバースし,改ざんした画像を順序パッチシーケンスに変換し,その後に多方向S6モデリングを適用した。
さらに、局所的特徴抽出を強化するために補助的畳み込み分岐を導入する。
この設計は、線形複雑性を保ちながら、グローバル依存関係の効率的な抽出を容易にする。
SSMとCNNブロックとの画素依存性をモデル化すると、単純なMLPデコーダにより画素ワイドのフォージェリーローカライゼーション結果が得られる。
CNN と Transformer による最先端技術に対する LoMa の優位性を検証した。
関連論文リスト
- SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文 参考訳(メタデータ) (2024-11-10T00:35:14Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Learning Enriched Features via Selective State Spaces Model for Efficient Image Deblurring [0.0]
Image Deblurringは、高品質な画像を、それに対応するぼやけた画像から復元することを目的としている。
本稿では、選択状態空間モデルを利用して、リッチで正確な特徴を集約する効率的な画像デブロアリングネットワークを提案する。
実験により,提案手法は広く用いられているベンチマークにおいて,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-29T10:40:41Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - KBNet: Kernel Basis Network for Image Restoration [36.591716199988895]
空間情報を集約する方法は、学習に基づく画像復元において重要な役割を担っている。
既存のCNNベースのネットワークの多くは、空間情報を適応的に集約できない空間情報をエンコードするために静的畳み込みカーネルを採用している。
本稿では,学習可能なカーネルベースを導入し,空間情報集約のための代表画像パターンをモデル化するカーネルベースアテンション(KBA)モジュールを提案する。
我々のモデルはカーネルベースネットワーク (KBNet) と呼ばれ、画像のデノイング、デライニング、デブロワーリングといったタスクに対して、10以上のベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-03-06T04:17:29Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。