Fugu-MT 論文翻訳(概要): Pixel-Inconsistency Modeling for Image Manipulation Localization

論文の概要: Pixel-Inconsistency Modeling for Image Manipulation Localization

arxiv url: http://arxiv.org/abs/2310.00234v2
Date: Tue, 19 Nov 2024 13:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.430848
Title: Pixel-Inconsistency Modeling for Image Manipulation Localization
Title（参考訳）: 画像操作位置推定のための画素不整合モデリング
Authors: Chenqi Kong, Anwei Luo, Shiqi Wang, Haoliang Li, Anderson Rocha, Alex C. Kot,
Abstract要約: デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
参考スコア（独自算出の注目度）: 59.968362815126326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Digital image forensics plays a crucial role in image authentication and manipulation localization. Despite the progress powered by deep neural networks, existing forgery localization methodologies exhibit limitations when deployed to unseen datasets and perturbed images (i.e., lack of generalization and robustness to real-world applications). To circumvent these problems and aid image integrity, this paper presents a generalized and robust manipulation localization model through the analysis of pixel inconsistency artifacts. The rationale is grounded on the observation that most image signal processors (ISP) involve the demosaicing process, which introduces pixel correlations in pristine images. Moreover, manipulating operations, including splicing, copy-move, and inpainting, directly affect such pixel regularity. We, therefore, first split the input image into several blocks and design masked self-attention mechanisms to model the global pixel dependency in input images. Simultaneously, we optimize another local pixel dependency stream to mine local manipulation clues within input forgery images. In addition, we design novel Learning-to-Weight Modules (LWM) to combine features from the two streams, thereby enhancing the final forgery localization performance. To improve the training process, we propose a novel Pixel-Inconsistency Data Augmentation (PIDA) strategy, driving the model to focus on capturing inherent pixel-level artifacts instead of mining semantic forgery traces. This work establishes a comprehensive benchmark integrating 15 representative detection models across 12 datasets. Extensive experiments show that our method successfully extracts inherent pixel-inconsistency forgery fingerprints and achieve state-of-the-art generalization and robustness performances in image manipulation localization.
Abstract（参考訳）: デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。ディープニューラルネットワークによる進歩にもかかわらず、既存のフォージェリーローカライゼーション手法は、目に見えないデータセットや摂動画像(つまり、現実のアプリケーションに対する一般化と堅牢性の欠如)にデプロイする際の制限を示す。本稿では,これらの問題を回避し,画像の整合性を支援するために,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。この理論的根拠は、ほとんどの画像信号プロセッサ(ISP)が、プリスタン画像に画素相関を導入する復調処理を伴っているという観察に基づいている。さらに、スプライシング、コピー・ムーブ、インペイントなどの操作操作は、そのようなピクセル規則性に直接影響を及ぼす。そこで、まず入力画像を複数のブロックに分割し、入力画像のグローバルなピクセル依存性をモデル化する自己認識機構をマスクした。同時に、入力フォージェリ画像内の局所的な操作ヒントをマイニングするために、別の局所画素依存性ストリームを最適化する。さらに,2つのストリームの機能を組み合わせた新しいLWM(Learning-to-Weight Modules)を設計し,最終的なフォージェリーローカライゼーション性能を向上させる。トレーニングプロセスを改善するために,Pixel-Inconsistency Data Augmentation (PIDA) 戦略を提案する。この研究は、12データセットに15の代表的な検出モデルを統合する包括的なベンチマークを確立する。広汎な実験により,本手法は固有画素不整合偽指紋の抽出に成功し,画像操作のローカライゼーションにおける最先端の一般化とロバスト性性能を実現した。

関連論文リスト

Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-26T07:35:09Z)
Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization [4.8454936010479335]
本稿では,画像フォージェリーローカライゼーションのための多視点Pixel-wise Contrastive Algorithm (MPC)を提案する。具体的には、まず、教師付きコントラスト損失を伴うバックボーンネットワークを事前訓練する。次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。
論文参考訳（メタデータ） (2024-06-19T13:51:52Z)
Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。 4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文参考訳（メタデータ） (2024-02-28T09:46:56Z)
Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。 PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文参考訳（メタデータ） (2023-09-16T08:12:12Z)
ISSTAD: Incremental Self-Supervised Learning Based on Transformer for Anomaly Detection and Localization [12.975540251326683]
本稿では,Transformerのバックボーンネットワークに基づく新しいアプローチを提案する。通常の画像のみに基づいてMasked Autoencoder(MAE)モデルを訓練する。その後の段階では、劣化した正規画像を生成するためにピクセルレベルのデータ拡張技術を適用する。このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類できる。
論文参考訳（メタデータ） (2023-03-30T13:11:26Z)
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文参考訳（メタデータ） (2022-10-16T13:30:13Z)
Joint Learning of Deep Texture and High-Frequency Features for Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文参考訳（メタデータ） (2022-09-07T17:30:40Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文参考訳（メタデータ） (2021-08-19T11:02:25Z)
Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文参考訳（メタデータ） (2021-01-26T13:00:46Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。