論文の概要: Image Forgery Localization with State Space Models
- arxiv url: http://arxiv.org/abs/2412.11214v1
- Date: Sun, 15 Dec 2024 15:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:22.436058
- Title: Image Forgery Localization with State Space Models
- Title(参考訳): 状態空間モデルを用いた画像偽造位置決め
- Authors: Zijie Lou, Gang Cao,
- Abstract要約: LoMaは,大域的画素依存性モデリングのための選択状態空間(S6)モデルと局所的画素依存性モデリングのための反転残差CNNを利用する,新しい画像フォージェリローカライゼーション手法である。
提案手法では,まず,空間領域をトラバースし,改ざんした画像を順序付きパッチシーケンスに変換するために,アトラス選択的スキャンを用いたMixed-SSMブロックを提案する。
局所的特徴抽出を強化するために補助的畳み込み分岐を導入する。
- 参考スコア(独自算出の注目度): 2.3838507844983248
- License:
- Abstract: Pixel dependency modeling from tampered images is pivotal for image forgery localization. Current approaches predominantly rely on convolutional neural network (CNN) or Transformer-based models, which often either lack sufficient receptive fields or entail significant computational overheads. In this paper, we propose LoMa, a novel image forgery localization method that leverages the Selective State Space (S6) model for global pixel dependency modeling and inverted residual CNN for local pixel dependency modeling. Our method introduces the Mixed-SSM Block, which initially employs atrous selective scan to traverse the spatial domain and convert the tampered image into order patch sequences, and subsequently applies multidirectional S6 modeling. In addition, an auxiliary convolutional branch is introduced to enhance local feature extraction. This design facilitates the efficient extraction of global dependencies while upholding linear complexity. Upon modeling the pixel dependency with the SSM and CNN blocks, the pixel-wise forgery localization results are obtained by a simple MLP decoder. Extensive experimental results validate the superiority of LoMa over CNN-based and Transformer-based state-of-the-arts.
- Abstract(参考訳): 改ざん画像からの画素依存性のモデリングは、画像フォージェリローカライゼーションにおいて重要である。
現在のアプローチは、畳み込みニューラルネットワーク(CNN)やTransformerベースのモデルに大きく依存している。
本稿では,大域画素依存モデリングのための選択状態空間(S6)モデルと局所画素依存モデリングのための反転残差CNNを利用する,新たな画像フォージェリーローカライゼーション手法であるLoMaを提案する。
提案手法では,まず空間領域をトラバースし,改ざんした画像を順序パッチシーケンスに変換し,その後に多方向S6モデリングを適用した。
さらに、局所的特徴抽出を強化するために補助的畳み込み分岐を導入する。
この設計は、線形複雑性を保ちながら、グローバル依存関係の効率的な抽出を容易にする。
SSMとCNNブロックとの画素依存性をモデル化すると、単純なMLPデコーダにより画素ワイドのフォージェリーローカライゼーション結果が得られる。
CNN と Transformer による最先端技術に対する LoMa の優位性を検証した。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks [47.49096400786856]
State-Space Models (SSM) は、長年のトランスフォーマーアーキテクチャに代わる強力で効率的な代替品として最近登場した。
多次元の定式化から始めて、現代の選択的状態空間技術を再導出する。
Mamba2Dは、ImageNet-1Kデータセットを用いた標準的な画像分類評価において、視覚タスクに対するSSMの事前適応と同等の性能を示す。
論文 参考訳(メタデータ) (2024-12-20T18:50:36Z) - SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文 参考訳(メタデータ) (2024-11-10T00:35:14Z) - Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。