論文の概要: Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models
- arxiv url: http://arxiv.org/abs/2311.14450v1
- Date: Fri, 24 Nov 2023 12:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:12:09.378479
- Title: Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models
- Title(参考訳): segment (ほぼ) nothing: セグメント化モデルに対するプロンプト非依存の敵の攻撃
- Authors: Francesco Croce, Matthias Hein
- Abstract要約: 汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 61.46999584579775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General purpose segmentation models are able to generate (semantic)
segmentation masks from a variety of prompts, including visual (points, boxed,
etc.) and textual (object names) ones. In particular, input images are
pre-processed by an image encoder to obtain embedding vectors which are later
used for mask predictions. Existing adversarial attacks target the end-to-end
tasks, i.e. aim at altering the segmentation mask predicted for a specific
image-prompt pair. However, this requires running an individual attack for each
new prompt for the same image. We propose instead to generate prompt-agnostic
adversarial attacks by maximizing the $\ell_2$-distance, in the latent space,
between the embedding of the original and perturbed images. Since the encoding
process only depends on the image, distorted image representations will cause
perturbations in the segmentation masks for a variety of prompts. We show that
even imperceptible $\ell_\infty$-bounded perturbations of radius
$\epsilon=1/255$ are often sufficient to drastically modify the masks predicted
with point, box and text prompts by recently proposed foundation models for
segmentation. Moreover, we explore the possibility of creating universal, i.e.
non image-specific, attacks which can be readily applied to any input without
further computational cost.
- Abstract(参考訳): 汎用セグメンテーションモデルでは、視覚的(ポイント、ボックス化など)やテキスト的(オブジェクト名)など、さまざまなプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は画像エンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
既存の敵攻撃は、エンド・ツー・エンドのタスク、すなわち特定のイメージ・プロンプト対に対して予測されるセグメンテーションマスクを変更することをターゲットにしている。
しかし、これは同じ画像に対する新しいプロンプトごとに個別の攻撃を実行する必要がある。
そこで本研究では,原画像と摂動画像の埋め込みの間に潜時空間における$\ell_2$-distanceを最大化することにより,突発的対向攻撃を生成することを提案する。
符号化プロセスは画像のみに依存するため、歪んだ画像表現は様々なプロンプトに対してセグメンテーションマスクの摂動を引き起こす。
我々は,最近提案されたセグメンテーションの基礎モデルによって予測された,ポイント,ボックス,テキストプロンプトで予測されるマスクを劇的に修正するに足りることを示す。
さらに,計算コストを増すことなく,任意の入力に対して容易に適用可能な普遍的,すなわち非画像特異的な攻撃を作成できる可能性についても検討する。
関連論文リスト
- Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation [74.04806143723597]
本稿では,プロペラジェネレータとマスクジェネレータを備えたProMaC(Prompt-Mask Cycle Generation framework)を提案する。
プロンプトジェネレータは、最初は、テストイメージ上で拡張された文脈知識を抽出するための幻覚を探究する、複数スケールの思考プロンプトの連鎖を使用する。
生成されたマスクは、プロンプトジェネレータを反復的にタスク関連の画像領域に集中させ、無関係な幻覚を減らし、より良いプロンプトとマスクを共同で生成する。
論文 参考訳(メタデータ) (2024-08-27T17:06:22Z) - Unsegment Anything by Simulating Deformation [67.10966838805132]
「無声化」とは、「無声化の権利」を画像に付与する作業である。
我々は、全てのプロンプトベースセグメンテーションモデルに対して、転送可能な敵攻撃を実現することを目指している。
本手法は, 画像エンコーダの特徴を破壊し, 即時攻撃を実現することに焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T09:09:42Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - Semantic-guided Multi-Mask Image Harmonization [10.27974860479791]
セマンティック誘導型マルチマスク画像調和タスクを提案する。
本研究では,一連のオペレーターマスクを予測することにより,不調和な画像を編集する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-07-24T11:48:49Z) - Differentiable Soft-Masked Attention [115.5770357189209]
Weakly Supervised Video Objectのタスクには,「識別可能なソフトマッシュアップ注意」が使用されている。
我々は、トランスフォーマーベースのトレーニングネットワークを開発したが、1つのアノテートフレームだけで、ビデオ上でのサイクル一貫性トレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-06-01T02:05:13Z) - Few-shot Semantic Image Synthesis Using StyleGAN Prior [8.528384027684192]
本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。
私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。
擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2021-03-27T11:04:22Z) - Proposal-Free Volumetric Instance Segmentation from Latent
Single-Instance Masks [16.217524435617744]
この研究は、新しいプロポーザルフリーなインスタンスセグメンテーション手法を導入している。
画像全体で予測されるシングルインスタンスセグメンテーションマスクをスライディングウィンドウスタイルで構築する。
関連するアプローチとは対照的に,本手法では,各画素毎に1つのマスクを同時に予測し,画像全体のコンフリクトを解消する。
論文 参考訳(メタデータ) (2020-09-10T17:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。