Fugu-MT 論文翻訳(概要): From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

論文の概要: From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

arxiv url: http://arxiv.org/abs/2603.20193v1
Date: Fri, 20 Mar 2026 17:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:39.28907
Title: From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering
Title（参考訳）: マスクからピクセルへ:新しい分類法、ベンチマーク、VLM画像タレンパのためのメトリクス
Authors: Xinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen,
Abstract要約: 粗い領域ラベルからのVLM画像の改ざんを行う。我々は,編集プリミティブにまたがる分類学と,その意味クラスを,低レベルな変化と高レベルな理解を結びつけて導入する。第3に,画素レベルの正しさと局所化を定量化して,真の編集強度に対する信頼度や予測を評価するためのトレーニングフレームワークと評価指標を提案する。
参考スコア（独自算出の注目度）: 66.2662973049988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.
Abstract（参考訳）: 既存の改ざん検出ベンチマークは主にオブジェクトマスクに依存しており、これは本物の編集信号と非常に違っている。粗い領域ラベルからのVLM画像の改ざんを行う。まず、編集プリミティブ(replace/remove/splice/inpaint/attribute/colorizationなど)と、タグ付きオブジェクトのセマンティッククラスを導入し、低レベルの変更を高レベルの理解にリンクする。第2に、画素単位のタンパーマップとペア化されたカテゴリ管理を用いた新しいベンチマークを公開し、統一されたプロトコル内での検出と分類を評価する。第3に,画素レベルの正しさを局所化とともに定量化し,真の編集強度に対する信頼度や予測を評価するためのトレーニングフレームワークと評価指標を提案し,さらに,予測領域のセマンティクス対応分類と自然言語記述を用いて,タンパーの意味理解を計測する。また,近年の強いタンパー検出器上での既存の強いセグメンテーション/ローカライゼーションベースラインを再評価し,マスクオンリーのメトリクスを用いたオーバー・アンダー・スコーシングを明らかにし,マイクロエジットやオフマスクの変更による障害モードを明らかにする。我々のフレームワークは、マスクからピクセル、意味、言語記述まで分野を前進させ、ローカライゼーション、セマンティックな分類、記述のための厳密な標準を確立します。コードとベンチマークデータはhttps://github.com/VILA-Lab/PIXARで公開されている。

関連論文リスト

High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文参考訳（メタデータ） (2024-12-16T05:44:45Z)
MaskCD: A Remote Sensing Change Detection Network Based on Mask Classification [29.15203530375882]
深層学習を用いたリモートセンシング(RS)画像からの変化(CD)を文献的に広く研究している。入力画像対から分類マスクを適応的に生成し,変化領域を検出するMaskCDを提案する。ピクセルワイズ表現を学習可能なマスク提案に復号することで、望まれる変更対象を再構築する。
論文参考訳（メタデータ） (2024-04-18T11:05:15Z)
Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。 Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文参考訳（メタデータ） (2023-07-25T08:23:10Z)
CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文参考訳（メタデータ） (2022-12-04T08:53:42Z)
GANSeg: Learning to Segment by Unsupervised Hierarchical Image Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文参考訳（メタデータ） (2021-12-02T07:57:56Z)
Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文参考訳（メタデータ） (2021-11-24T18:50:47Z)
Context-Aware Mixup for Domain Adaptive Semantic Segmentation [52.1935168534351]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインのモデルをラベル付きターゲットドメインに適応させることを目的としている。ドメイン適応型セマンティックセグメンテーションのためのエンド・ツー・エンドコンテキスト・アウェア・ミックスアップ(CAMix)を提案する。実験結果から,提案手法は最先端の手法よりも高い性能を示した。
論文参考訳（メタデータ） (2021-08-08T03:00:22Z)
Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文参考訳（メタデータ） (2021-07-13T17:59:50Z)
Instance Semantic Segmentation Benefits from Generative Adversarial Networks [13.295723883560122]
マスクの予測問題は,GANのゲームフレームワークとして定義する。セグメンテーションネットワークがマスクを生成し、識別ネットワークがマスクの品質を決定する。携帯電話のリサイクル,自動運転,大規模物体検出,医療用腺について報告する。
論文参考訳（メタデータ） (2020-10-26T17:47:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。