論文の概要: Perceptual MAE for Image Manipulation Localization: A High-level Vision
Learner Focusing on Low-level Features
- arxiv url: http://arxiv.org/abs/2310.06525v1
- Date: Tue, 10 Oct 2023 11:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 16:00:15.883335
- Title: Perceptual MAE for Image Manipulation Localization: A High-level Vision
Learner Focusing on Low-level Features
- Title(参考訳): 画像操作ローカライズのための知覚的mae:低レベル特徴に着目した高レベル視覚学習者
- Authors: Xiaochen Ma, Jizhe Zhou, Xiong Xu, Zhuohang Jiang, Chi-Man Pun
- Abstract要約: 本稿では,Masked Autoencoder (MAE) を高精細な入力と知覚的損失監視モジュールを組み込むことで拡張する手法を提案する。
このような解釈に基づいて,高精細な入力と知覚的損失監視モジュールを組み込むことで,Masked Autoencoder (MAE) を強化する手法を提案する。
- 参考スコア(独自算出の注目度): 33.37376410890546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, multimedia forensics faces unprecedented challenges due to the
rapid advancement of multimedia generation technology thereby making Image
Manipulation Localization (IML) crucial in the pursuit of truth. The key to IML
lies in revealing the artifacts or inconsistencies between the tampered and
authentic areas, which are evident under pixel-level features. Consequently,
existing studies treat IML as a low-level vision task, focusing on allocating
tampered masks by crafting pixel-level features such as image RGB noises, edge
signals, or high-frequency features. However, in practice, tampering commonly
occurs at the object level, and different classes of objects have varying
likelihoods of becoming targets of tampering. Therefore, object semantics are
also vital in identifying the tampered areas in addition to pixel-level
features. This necessitates IML models to carry out a semantic understanding of
the entire image. In this paper, we reformulate the IML task as a high-level
vision task that greatly benefits from low-level features. Based on such an
interpretation, we propose a method to enhance the Masked Autoencoder (MAE) by
incorporating high-resolution inputs and a perceptual loss supervision module,
which is termed Perceptual MAE (PMAE). While MAE has demonstrated an impressive
understanding of object semantics, PMAE can also compensate for low-level
semantics with our proposed enhancements. Evidenced by extensive experiments,
this paradigm effectively unites the low-level and high-level features of the
IML task and outperforms state-of-the-art tampering localization methods on all
five publicly available datasets.
- Abstract(参考訳): 近年,マルチメディア生成技術の急速な進歩により,画像操作ローカライゼーション(iml)が真理の追求に不可欠となり,マルチメディア法医学は先例のない課題に直面している。
IMLの鍵は、ピクセルレベルの特徴の下で明らかな、改ざんされた領域と認証された領域の間のアーティファクトや矛盾を明らかにすることである。
その結果、既存の研究では、画像RGBノイズ、エッジ信号、高周波特徴などの画素レベルの特徴を制作することで、改ざんされたマスクを割り当てることに焦点を当て、低レベルの視覚タスクとしてIMLを扱います。
しかし、実際には、オブジェクトレベルでの改ざんは通常発生し、異なる種類のオブジェクトが改ざんの対象になる可能性は様々である。
したがって、オブジェクトセマンティクスはピクセルレベルの機能に加えて、改ざんされた領域を特定するのにも不可欠である。
これにより、画像全体のセマンティック理解を実行するために、IMLモデルが必要である。
本稿では,低レベルの特徴を活かした高レベルの視覚タスクとしてIMLタスクを再構築する。
このような解釈に基づき、高精細な入力と知覚損失監視モジュールを組み込むことにより、マスケドオートエンコーダ(MAE)を強化する手法を提案し、これをPMAE(Perceptual MAE)と呼ぶ。
MAEはオブジェクトセマンティクスの驚くべき理解を示してきたが、PMAEは低レベルのセマンティクスを補うことができる。
広範な実験によって証明されたこのパラダイムは、IMLタスクの低レベルと高レベルの特徴を効果的に統合し、5つの公開データセットすべてにおいて最先端のタンパリングローカライゼーション手法より優れている。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning [18.424840375721303]
Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。
有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。
この研究は、このようなフレームワークの課題を徹底的に分析し、対処する最初の試みの一つであり、このフレームワークはLatent MIMと呼ばれている。
論文 参考訳(メタデータ) (2024-07-22T17:54:41Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Towards Granularity-adjusted Pixel-level Semantic Annotation [26.91350707156658]
GranSAMは、手作業による監督を必要とせずに、ラベルのないデータに対して、ユーザ定義の粒度レベルでセマンティックセグメンテーションを提供する。
安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積する。
PASCAL VOC 2012とCOCO-80データセットの実験を行い、mIoUの+17.95%と+5.17%の増加を観測した。
論文 参考訳(メタデータ) (2023-12-05T01:37:18Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Multi-scale Information Assembly for Image Matting [35.43994064645042]
単一のRGB画像から高品質のアルファマットを取り出すマルチスケール情報組み立てフレームワーク(MSIA-matte)を提案する。
既存のマッティングネットワークと比較して、最先端のパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2021-01-07T06:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。