論文の概要: Image Forgery Localization with State Space Models
- arxiv url: http://arxiv.org/abs/2412.11214v2
- Date: Fri, 14 Feb 2025 06:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:02.862748
- Title: Image Forgery Localization with State Space Models
- Title(参考訳): 状態空間モデルを用いた画像偽造位置決め
- Authors: Zijie Lou, Gang Cao, Kun Guo, Shaowei Weng, Lifang Yu,
- Abstract要約: 選択SSMを利用した画像フォージェリローカライズ手法であるLoMaを提案する。
LoMaは、空間領域を横切り、改ざんされた画像を順序付けられたパッチシーケンスに変換するために、アトラス選択的スキャンを使用する。
これは、SSMベースのモデルに基づいて構築された最初の画像フォージェリーローカライゼーションモデルである。
- 参考スコア(独自算出の注目度): 6.6222439382291
- License:
- Abstract: Pixel dependency modeling from tampered images is pivotal for image forgery localization. Current approaches predominantly rely on Convolutional Neural Networks (CNNs) or Transformer-based models, which often either lack sufficient receptive fields or entail significant computational overheads. Recently, State Space Models (SSMs), exemplified by Mamba, have emerged as a promising approach. They not only excel in modeling long-range interactions but also maintain a linear computational complexity. In this paper, we propose LoMa, a novel image forgery localization method that leverages the selective SSMs. Specifically, LoMa initially employs atrous selective scan to traverse the spatial domain and convert the tampered image into ordered patch sequences, and subsequently applies multi-directional state space modeling. In addition, an auxiliary convolutional branch is introduced to enhance local feature extraction. Extensive experimental results validate the superiority of LoMa over CNN-based and Transformer-based state-of-the-arts. To our best knowledge, this is the first image forgery localization model constructed based on the SSM-based model. We aim to establish a baseline and provide valuable insights for the future development of more efficient and effective SSM-based forgery localization models. Code is available at https://github.com/multimediaFor/LoMa.
- Abstract(参考訳): 改ざん画像からの画素依存性のモデリングは、画像フォージェリローカライゼーションにおいて重要である。
現在のアプローチは、畳み込みニューラルネットワーク(CNN)やトランスフォーマーベースのモデルに大きく依存している。
近年,マンバが実証した状態空間モデル (SSM) が将来性のあるアプローチとして登場している。
長距離相互作用をモデル化するだけでなく、線形計算の複雑さも維持する。
本稿では,選択的なSSMを利用する画像フォージェリーローカライズ手法であるLoMaを提案する。
具体的には、当初LoMaは空間領域をトラバースし、改ざんされた画像を順序付けられたパッチシーケンスに変換し、その後、多方向状態空間モデリングを適用するためにアトラス選択的スキャンを採用している。
さらに、局所的特徴抽出を強化するために補助的畳み込み分岐を導入する。
CNN と Transformer による最先端技術に対する LoMa の優位性を検証した。
我々の知る限り、これはSSMモデルに基づいて構築された最初のイメージフォージェリーローカライゼーションモデルである。
我々は,SSMに基づくより効率的かつ効果的なフォージェリーローカライゼーションモデルの構築に向けて,ベースラインを確立することを目的としている。
コードはhttps://github.com/multimediaFor/LoMa.comで入手できる。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks [47.49096400786856]
State-Space Models (SSM) は、長年のトランスフォーマーアーキテクチャに代わる強力で効率的な代替品として最近登場した。
多次元の定式化から始めて、現代の選択的状態空間技術を再導出する。
Mamba2Dは、ImageNet-1Kデータセットを用いた標準的な画像分類評価において、視覚タスクに対するSSMの事前適応と同等の性能を示す。
論文 参考訳(メタデータ) (2024-12-20T18:50:36Z) - SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文 参考訳(メタデータ) (2024-11-10T00:35:14Z) - Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。