論文の概要: Webly-Supervised Image Manipulation Localization via Category-Aware Auto-Annotation
- arxiv url: http://arxiv.org/abs/2508.20987v1
- Date: Thu, 28 Aug 2025 16:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.519267
- Title: Webly-Supervised Image Manipulation Localization via Category-Aware Auto-Annotation
- Title(参考訳): カテゴリー認識自動アノテーションによるWeb上における画像操作の局所化
- Authors: Chenfan Qu, Yiwu Zhong, Bin Li, Lianwen Jin,
- Abstract要約: 画像編集ツールを使って操作された画像は、視聴者を誤解させ、社会保障に重大なリスクをもたらす可能性がある。
この領域の主な障壁の1つは、データ取得の高コストと、高品質な注釈付きデータセットの深刻な欠如である。
我々は、Webから手動で鍛造された画像の大規模なコレクションと、自動生成されたアノテーションを利用する。
我々はMIMLv2を構築する。MIMLv2は大規模で多彩で高品質なデータセットで、246,212個の手動鍛造画像とピクセルレベルのマスクアノテーションを備えている。
- 参考スコア(独自算出の注目度): 49.83611963142304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images manipulated using image editing tools can mislead viewers and pose significant risks to social security. However, accurately localizing the manipulated regions within an image remains a challenging problem. One of the main barriers in this area is the high cost of data acquisition and the severe lack of high-quality annotated datasets. To address this challenge, we introduce novel methods that mitigate data scarcity by leveraging readily available web data. We utilize a large collection of manually forged images from the web, as well as automatically generated annotations derived from a simpler auxiliary task, constrained image manipulation localization. Specifically, we introduce a new paradigm CAAAv2, which automatically and accurately annotates manipulated regions at the pixel level. To further improve annotation quality, we propose a novel metric, QES, which filters out unreliable annotations. Through CAAA v2 and QES, we construct MIMLv2, a large-scale, diverse, and high-quality dataset containing 246,212 manually forged images with pixel-level mask annotations. This is over 120x larger than existing handcrafted datasets like IMD20. Additionally, we introduce Object Jitter, a technique that further enhances model training by generating high-quality manipulation artifacts. Building on these advances, we develop a new model, Web-IML, designed to effectively leverage web-scale supervision for the image manipulation localization task. Extensive experiments demonstrate that our approach substantially alleviates the data scarcity problem and significantly improves the performance of various models on multiple real-world forgery benchmarks. With the proposed web supervision, Web-IML achieves a striking performance gain of 31% and surpasses previous SOTA TruFor by 24.1 average IoU points. The dataset and code will be made publicly available at https://github.com/qcf-568/MIML.
- Abstract(参考訳): 画像編集ツールを使って操作された画像は、視聴者を誤解させ、社会保障に重大なリスクをもたらす可能性がある。
しかし、画像内の操作された領域を正確にローカライズすることは難しい問題である。
この領域の主な障壁の1つは、データ取得の高コストと、高品質な注釈付きデータセットの深刻な欠如である。
この課題に対処するために、利用可能なWebデータを活用することにより、データの不足を軽減する新しい手法を提案する。
我々は,Webから手動で作成する画像の大規模なコレクションを利用するとともに,簡易な補助タスク,制約付き画像操作のローカライゼーションから自動生成するアノテーションを利用する。
具体的には、新しいパラダイムCAAAv2を導入し、画素レベルで操作された領域を自動的かつ正確に注釈付けする。
アノテーションの品質をさらに向上するために,信頼できないアノテーションをフィルタリングする新しいメトリクスQESを提案する。
CAAA v2 と QES を通じて,246,212 個の手動鍛造画像に画素レベルのマスクアノテーションを付加したMIMLv2 を構築した。
IMD20のような既存の手作りデータセットより120倍以上大きい。
さらに、高品質な操作アーチファクトを生成することにより、モデルトレーニングをさらに強化するテクニックであるObject Jitterを紹介します。
画像操作のローカライゼーションタスクにおいて,Webスケールの監視を効果的に活用するための新しいモデルであるWeb-IMLを開発した。
大規模な実験により,本手法はデータ不足問題を大幅に軽減し,複数の実世界の偽ベンチマーク上での各種モデルの性能を著しく改善することが示された。
提案されたウェブ監視により、Web-IMLは31%の大幅なパフォーマンス向上を達成し、以前のSOTA TruForを平均24.1のIoUポイントで上回っている。
データセットとコードはhttps://github.com/qcf-568/MIMLで公開される。
関連論文リスト
- Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model [92.61216319417208]
画像の劣化に対する新しい拡散モデル(DM)に基づくフレームワークを提案する。
我々の研究は、ぼやけた画像のテクスチャを回復するのに役立つ事前知識を生成するために、DMを実行する。
生成したテクスチャをフル活用するために,テクスチャ転送変換層(TTformer)を提案する。
論文 参考訳(メタデータ) (2025-07-18T01:50:31Z) - EliGen: Entity-Level Controlled Image Generation with Regional Attention [7.7120747804211405]
我々はエンティティレベルの制御された画像生成のための新しいフレームワークであるEliGenを紹介する。
我々はEliGenに、空間的精度と画質の両方において既存の手法を超越して、堅牢で正確な実体レベルの操作を実現するよう訓練する。
マルチエンタテインティングタスクにその能力を拡張したインパインティング・フュージョン・パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-02T06:46:13Z) - Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - Towards Small Object Editing: A Benchmark Dataset and A Training-Free Approach [13.262064234892282]
テキストとこれらのオブジェクト間の相互注意マップの整列が困難であるため、小さなオブジェクト生成は制限されている。
我々の手法は、このアライメント問題を局所的およびグローバルな注意誘導とともに大幅に軽減する、トレーニング不要な手法を提供する。
予備的な結果から,本手法の有効性が示され,既存モデルと比較して,小型オブジェクト生成の忠実度と精度が著しく向上した。
論文 参考訳(メタデータ) (2024-11-03T12:38:23Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - HINT: High-quality INPainting Transformer with Mask-Aware Encoding and
Enhanced Attention [14.055584700641212]
既存の画像塗装法は畳み込みに基づくダウンサンプリング手法を利用して空間次元を小さくする。
本稿では,新しいマスク対応画素シャッフルダウンサンプリングモジュールであるHINTを用いたエンドツーエンドの高品質インペインティングトランスを提案する。
4つのデータセット上の現代最先端モデルと比較して,HINTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-22T00:14:26Z) - IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer [25.673986942179123]
高度な画像改ざん技術はマルチメディアの信頼性に挑戦している。
優れたIMLモデルとは何か?答はアーティファクトをキャプチャする方法にある。
We build a ViT paradigm IML-ViT, which has a high- resolution capacity, multi-scale feature extract capabilities, and manipulate edge supervision。
我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-27T13:49:27Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。