論文の概要: Malicious Image Analysis via Vision-Language Segmentation Fusion: Detection, Element, and Location in One-shot
- arxiv url: http://arxiv.org/abs/2512.04599v1
- Date: Thu, 04 Dec 2025 09:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.090226
- Title: Malicious Image Analysis via Vision-Language Segmentation Fusion: Detection, Element, and Location in One-shot
- Title(参考訳): ビジョン・ランゲージ・セグメンテーション・フュージョンによる異常画像解析:1ショットにおける検出, 要素, 位置
- Authors: Sheng Hang, Chaoxiang He, Hongsheng Hu, Hanqing Hu, Bin Benjamin Zhu, Shi-Feng Sun, Dawu Gu, Shuo Wang,
- Abstract要約: 画像に有害なコンテンツが含まれているかどうかを同時に検出するゼロショットパイプラインを導入する。
それぞれの重要な要素を特定し、それらの要素をピクセル精度のマスクでローカライズする。
このシステムは、画像を数秒で処理し、既存のVLMにシームレスにプラグインし、きめ細かな説明可能な悪意のある画像モデレーションのための最初の実用的なツールを構成する。
- 参考スコア(独自算出の注目度): 18.80045630689047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting illicit visual content demands more than image-level NSFW flags; moderators must also know what objects make an image illegal and where those objects occur. We introduce a zero-shot pipeline that simultaneously (i) detects if an image contains harmful content, (ii) identifies each critical element involved, and (iii) localizes those elements with pixel-accurate masks - all in one pass. The system first applies foundation segmentation model (SAM) to generate candidate object masks and refines them into larger independent regions. Each region is scored for malicious relevance by a vision-language model using open-vocabulary prompts; these scores weight a fusion step that produces a consolidated malicious object map. An ensemble across multiple segmenters hardens the pipeline against adaptive attacks that target any single segmentation method. Evaluated on a newly-annotated 790-image dataset spanning drug, sexual, violent and extremist content, our method attains 85.8% element-level recall, 78.1% precision and a 92.1% segment-success rate - exceeding direct zero-shot VLM localization by 27.4% recall at comparable precision. Against PGD adversarial perturbations crafted to break SAM and VLM, our method's precision and recall decreased by no more than 10%, demonstrating high robustness against attacks. The full pipeline processes an image in seconds, plugs seamlessly into existing VLM workflows, and constitutes the first practical tool for fine-grained, explainable malicious-image moderation.
- Abstract(参考訳): 画像レベルのNSFWフラグよりも不正なビジュアルコンテンツを検出する。モデレーターは、どのオブジェクトが画像を違法にし、そのオブジェクトがどこで発生するかを知る必要がある。
同時にゼロショットパイプラインを導入する。
i) 画像に有害な内容があるかどうかを検出する。
(二)関係する各重要な要素を識別し、
(iii)これらの要素をピクセル精度のマスクでローカライズする。
このシステムはまず基盤分割モデル(SAM)を適用して、候補となるオブジェクトマスクを生成し、それらをより大きな独立領域に洗練する。
各領域は、オープン語彙プロンプトを用いた視覚言語モデルにより、悪意のある関連性のためにスコアされ、これらのスコアは、統合された悪意のあるオブジェクトマップを生成する融合ステップを重み付けする。
複数のセグメンタをまたいだアンサンブルは、任意の単一セグメンテーションメソッドをターゲットにしたアダプティブアタックに対してパイプラインを強固にする。
薬物, 性的, 暴力的, 過激な内容にまたがる新たに注釈付き790イメージのデータセットに基づいて評価し, 85.8%の元素レベルのリコール, 78.1%の精度, 92.1%のセグメント・サクセスレートを達成し, 直接ゼロショットVLMのローカライゼーションを27.4%の精度で27.4%の精度で達成した。
SAMおよびVLMの破壊を目的としたPGD逆境摂動に対して,本手法の精度とリコールは10%以下に低下し,攻撃に対する高い堅牢性を示した。
完全なパイプラインは、イメージを数秒で処理し、既存のVLMワークフローにシームレスにプラグインし、きめ細かな説明可能な悪意のある画像モデレーションのための最初の実用的なツールを構成する。
関連論文リスト
- Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval [13.296362770269452]
Mask-aware TIR (MaTIR) は、テキストクエリに基づいて関連する画像を見つけることを目的としている。
セグメンテーションを意識した画像検索のための第1段階と、再ランク付けとオブジェクトグラウンド化のための第2段階からなる2段階のフレームワークを提案する。
我々はCOCOとD$3$データセットに対するアプローチを評価し、従来の手法に比べて精度とセグメンテーション品質の両方が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-28T12:19:49Z) - UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Adversarial Testing for Visual Grounding via Image-Aware Property
Reduction [12.745111000109178]
PEElingは、画像認識特性の低減によるテキスト摂動手法であり、視覚的グラウンドリングモデルの対角テストを行う。
マルチモーダルインパクトスコア(MMI)は21.4%に達し、画像やテキストの最先端のベースラインを8.2%から15.1%上回っている。
論文 参考訳(メタデータ) (2024-03-02T08:03:42Z) - QIS : Interactive Segmentation via Quasi-Conformal Mappings [3.096214093393036]
ユーザ入力を正と負のクリックという形で組み込んだ準コンフォルマルな対話型セグメンテーション(QIS)モデルを提案する。
本稿では,QISが関心領域を含ませたり排除したりする能力の理論的支援を含む,提案モデルの徹底的な分析を行う。
論文 参考訳(メタデータ) (2024-02-22T16:49:58Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Not Just Learning from Others but Relying on Yourself: A New Perspective
on Few-Shot Segmentation in Remote Sensing [14.37799301656178]
Few-shot segmentation (FSS) は、いくつかの注釈付きサンプルで未知のクラスターゲットをセグメンテーションするために提案されている。
我々は、クロスイメージマイニングとセルフマイニングのためのDMNetというデュアルマイニングネットワークを開発した。
Resnet-50のバックボーンを持つ我々のモデルは、1ショットと5ショット設定でiSAID上で49.58%と51.34%のmIoUを達成する。
論文 参考訳(メタデータ) (2023-10-19T04:09:10Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。