論文の概要: IML-ViT: Image Manipulation Localization by Vision Transformer
- arxiv url: http://arxiv.org/abs/2307.14863v1
- Date: Thu, 27 Jul 2023 13:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:34:28.642143
- Title: IML-ViT: Image Manipulation Localization by Vision Transformer
- Title(参考訳): IML-ViT:視覚変換器による画像操作位置決め
- Authors: Xiaochen Ma, Bo Du, Xianggen Liu, Ahmed Y. Al Hammadi, Jizhe Zhou
- Abstract要約: 高度な画像改ざん技術はマルチメディアの信頼性に挑戦している。
我々は,高精細なキャパシティ,マルチスケール特徴抽出機能,エッジ監視操作を備えたViTパラダイムを構築した。
我々は、この単純だが効果的なViTパラダイムをIML-ViTと呼び、IMLの新しいベンチマークとなる大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 27.99696322160704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced image tampering techniques are increasingly challenging the
trustworthiness of multimedia, leading to the development of Image Manipulation
Localization (IML). But what makes a good IML model? The answer lies in the way
to capture artifacts. Exploiting artifacts requires the model to extract
non-semantic discrepancies between the manipulated and authentic regions, which
needs to compare differences between these two areas explicitly. With the
self-attention mechanism, naturally, the Transformer is the best candidate.
Besides, artifacts are sensitive to image resolution, amplified under
multi-scale features, and massive at the manipulation border. Therefore, we
formulate the answer to the former question as building a ViT with
high-resolution capacity, multi-scale feature extraction capability, and
manipulation edge supervision. We term this simple but effective ViT paradigm
as the IML-ViT, which has great potential to become a new benchmark for IML.
Extensive experiments on five benchmark datasets verified our model outperforms
the state-of-the-art manipulation localization methods. Code and models are
available at \url{https://github.com/SunnyHaze/IML-ViT}
- Abstract(参考訳): 高度な画像改ざん技術は、マルチメディアの信頼性にますます挑戦し、画像操作ローカライゼーション(IML)の開発につながっている。
しかし、優れたIMLモデルを作る理由は何ですか?
答えは、アーティファクトをキャプチャする方法にあります。
爆発するアーティファクトは、操作された領域と認証領域の間に非意味的な不一致を抽出する必要がある。
自己着脱機構は当然のことながら、トランスフォーマーが最適候補である。
さらに、アーティファクトは画像解像度に敏感で、マルチスケール機能で増幅され、操作境界で巨大です。
そこで,前者の質問に対する回答を,高分解能のvitの構築,マルチスケール特徴抽出機能,操作エッジ管理として定式化する。
我々は、この単純だが効果的なViTパラダイムをIML-ViTと呼び、IMLの新しいベンチマークとなる大きな可能性を秘めている。
5つのベンチマークデータセットの大規模な実験により、我々のモデルは最先端の操作ローカライゼーション手法よりも優れていた。
コードとモデルは \url{https://github.com/SunnyHaze/IML-ViT} で入手できる。
関連論文リスト
- A Noise and Edge extraction-based dual-branch method for Shallowfake and Deepfake Localization [15.647035299476894]
従来のCNN機能と手動で設計した特徴雑音を統合したデュアルブランチモデルを開発した。
このモデルは比較において優れており、既存の最先端モデル(SoTA)よりも容易に優れている。
論文 参考訳(メタデータ) (2024-09-02T02:18:34Z) - Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector [15.647035299476894]
Tex-ViT (Texture-Vision Transformer)は、ResNetと視覚変換器を組み合わせることでCNN機能を強化する。
このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。
これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-29T20:26:27Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Masked autoencoders are effective solution to transformer data-hungry [0.0]
ビジョントランスフォーマー(ViT)は、いくつかのビジョンタスクにおいて、そのグローバルモデリング能力で畳み込みニューラルネットワーク(CNN)を上回っている。
ViTには、畳み込みに固有の帰納バイアスがなく、トレーニングに大量のデータを必要とする。
マスク付きオートエンコーダ(MAE)は、トランスフォーマーが画像自体にもっと焦点を合わせることができる。
論文 参考訳(メタデータ) (2022-12-12T03:15:19Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。