論文の概要: Omni-IML: Towards Unified Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2411.14823v1
- Date: Fri, 22 Nov 2024 09:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:03.919523
- Title: Omni-IML: Towards Unified Image Manipulation Localization
- Title(参考訳): Omni-IML:Unified Image Manipulation Localizationを目指して
- Authors: Chenfan Qu, Yiwu Zhong, Fengjun Guo, Lianwen Jin,
- Abstract要約: IMLタスクを統一する最初の一般モデルであるOmni-IMLを提案する。
我々は、自然画像、文書画像、顔画像の3つの主要なシナリオにわたるIMLタスクに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 33.38946428507517
- License:
- Abstract: Image manipulation can lead to misinterpretation of visual content, posing significant risks to information security. Image Manipulation Localization (IML) has thus received increasing attention. However, existing IML methods rely heavily on task-specific designs, making them perform well only on one target image type but are mostly random guessing on other image types, and even joint training on multiple image types causes significant performance degradation. This hinders the deployment for real applications as it notably increases maintenance costs and the misclassification of image types leads to serious error accumulation. To this end, we propose Omni-IML, the first generalist model to unify diverse IML tasks. Specifically, Omni-IML achieves generalism by adopting the Modal Gate Encoder and the Dynamic Weight Decoder to adaptively determine the optimal encoding modality and the optimal decoder filters for each sample. We additionally propose an Anomaly Enhancement module that enhances the features of tampered regions with box supervision and helps the generalist model to extract common features across different IML tasks. We validate our approach on IML tasks across three major scenarios: natural images, document images, and face images. Without bells and whistles, our Omni-IML achieves state-of-the-art performance on all three tasks with a single unified model, providing valuable strategies and insights for real-world application and future research in generalist image forensics. Our code will be publicly available.
- Abstract(参考訳): 画像操作は視覚的コンテンツの誤解釈を招き、情報セキュリティに重大なリスクをもたらす可能性がある。
画像マニピュレーション・ローカライゼーション(IML)が注目されている。
しかし、既存のIML手法はタスク固有の設計に大きく依存しており、1つのターゲットイメージタイプでのみうまく機能するが、ほとんどの場合、他のイメージタイプでランダムに推測される。
これにより、メンテナンスコストが著しく増加し、イメージタイプの誤分類が重大なエラーの蓄積につながるため、実際のアプリケーションのデプロイを妨げます。
そこで本研究では,多様なIMLタスクを統一する最初の汎用モデルであるOmni-IMLを提案する。
具体的には、Omni-IMLは、モダルゲートエンコーダとダイナミックウェイトデコーダを採用し、各サンプルに対して最適な符号化モダリティと最適なデコーダフィルタを適応的に決定することで、一般化を実現する。
さらに,ボックス管理による改ざん領域の特徴の強化と,汎用モデルによる共通特徴の抽出を支援するAnomaly Enhancementモジュールを提案する。
我々は、自然画像、文書画像、顔画像の3つの主要なシナリオにわたるIMLタスクに対するアプローチを検証する。
我々のOmni-IMLは、単一の統一モデルで3つのタスクすべてにおいて最先端のパフォーマンスを実現し、現実世界の応用のための貴重な戦略と洞察と、一般的な画像法医学における将来の研究を提供する。
私たちのコードは公開されます。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - ComNeck: Bridging Compressed Image Latents and Multimodal LLMs via Universal Transform-Neck [45.83457913639876]
本稿では,マルチモーダル大言語モデル(MLLM)を応用した下流視覚タスクのニーズに適合する圧縮画像潜在者を適応させる最初の研究について述べる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
我々のフレームワークには,トランスフォーメーションネックのトレーニングから下流MLLMを除いた印象的な機能と,ニューラルイメージも備えています。
論文 参考訳(メタデータ) (2024-07-29T02:32:44Z) - GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization [21.846935203845728]
ローカル操作パイプラインは、強力なSAM、ChatGPT、生成モデルを組み込んだ設計である。
1)AIが操作する画像と実際の画像のペアが100万以上含まれる大規模なデータセット。
本稿では、シャドウトレーサ、周波数空間ブロック(FSB)、マルチウィンドウ異常モデリング(MWAM)モジュールからなる新しいIMDLフレームワークGIMFormerを提案する。
論文 参考訳(メタデータ) (2024-06-24T11:10:41Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。