論文の概要: Ceci n'est pas une pomme: Adversarial Illusions in Multi-Modal
Embeddings
- arxiv url: http://arxiv.org/abs/2308.11804v1
- Date: Tue, 22 Aug 2023 21:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:38:46.847975
- Title: Ceci n'est pas une pomme: Adversarial Illusions in Multi-Modal
Embeddings
- Title(参考訳): Ceci n'est pas une pomme:マルチモーダル・エンベディングにおける逆イリュージョン
- Authors: Eugene Bagdasaryan, Vitaly Shmatikov
- Abstract要約: マルチモーダルエンコーダは、画像、音、テキスト、ビデオ等を単一の埋め込み空間にマッピングする。
マルチモーダル埋め込みは「逆錯覚」と呼ばれる攻撃に対して脆弱であることを示す。
- 参考スコア(独自算出の注目度): 16.712814763678495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal encoders map images, sounds, texts, videos, etc. into a single
embedding space, aligning representations across modalities (e.g., associate an
image of a dog with a barking sound). We show that multi-modal embeddings can
be vulnerable to an attack we call "adversarial illusions." Given an input in
any modality, an adversary can perturb it so as to make its embedding close to
that of an arbitrary, adversary-chosen input in another modality. Illusions
thus enable the adversary to align any image with any text, any text with any
sound, etc.
Adversarial illusions exploit proximity in the embedding space and are thus
agnostic to downstream tasks. Using ImageBind embeddings, we demonstrate how
adversarially aligned inputs, generated without knowledge of specific
downstream tasks, mislead image generation, text generation, and zero-shot
classification.
- Abstract(参考訳): マルチモーダルエンコーダは、画像、音、テキスト、ビデオなどを単一の埋め込み空間にマッピングし、モダリティ間で表現を整列させる(例えば、犬のイメージとバーキングサウンドを関連付ける)。
マルチモーダル埋め込みは「敵の錯覚」と呼ばれる攻撃に対して脆弱であることを示す。
任意のモダリティの入力が与えられたとき、敵はそれを摂動させ、その埋め込みを別のモダリティの任意の逆朝銭入力に近いものにすることができる。
これにより、敵はどんな画像でもどんなテキストでも、どんなテキストでもどんな音でも整列できる。
逆錯覚は埋め込み空間に近付くことを利用しており、従って下流のタスクとは無関係である。
ImageBind埋め込みを用いて、特定の下流タスク、ミスリード画像生成、テキスト生成、ゼロショット分類の知識を必要とせず、逆アライメントされた入力がどのように生成されるかを示す。
関連論文リスト
- White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Unsegment Anything by Simulating Deformation [67.10966838805132]
「無声化」とは、「無声化の権利」を画像に付与する作業である。
我々は、全てのプロンプトベースセグメンテーションモデルに対して、転送可能な敵攻撃を実現することを目指している。
本手法は, 画像エンコーダの特徴を破壊し, 即時攻撃を実現することに焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T09:09:42Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks [16.577595936609665]
本稿では,画像再サンプリングという,敵対的攻撃に対する新たなアプローチを提案する。
画像再サンプリングは、幾何学的変換によって指定されたシーンの再調整や再レンダリングの過程をシミュレートして、離散画像を新しい画像に変換する。
本手法は,クリーンな画像の精度を維持しつつ,多様な深層モデルの様々な攻撃に対する対角的堅牢性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T11:19:32Z) - I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。
攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文 参考訳(メタデータ) (2023-06-13T07:35:28Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Content-based Unrestricted Adversarial Attack [53.181920529225906]
本稿では,コンテンツベース非制限攻撃という新たな非制限攻撃フレームワークを提案する。
自然像を表す低次元多様体を利用することで、像を多様体上に写像し、その逆方向に沿って最適化する。
論文 参考訳(メタデータ) (2023-05-18T02:57:43Z) - Sound-Guided Semantic Image Manipulation [19.01823634838526]
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。
提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。
ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-30T13:30:12Z) - Exploring Adversarial Robustness of Multi-Sensor Perception Systems in
Self Driving [87.3492357041748]
本稿では,敵物体をホスト車両の上に配置することで,マルチセンサ検出の実用的感受性を示す。
実験の結果, 攻撃が成功した原因は主に画像の特徴が損なわれやすいことが判明した。
よりロバストなマルチモーダル知覚システムに向けて,特徴分断を伴う敵対的訓練が,このような攻撃に対するロバスト性を大幅に高めることを示す。
論文 参考訳(メタデータ) (2021-01-17T21:15:34Z) - Generating Semantic Adversarial Examples via Feature Manipulation [23.48763375455514]
本稿では,意味的意味を持つ構造的摂動を設計することで,より現実的な敵攻撃を提案する。
提案手法は,非絡み付きラテント符号を用いて画像の意味的属性を演算する。
我々は、普遍的で画像に依存しないセマンティック・逆境の例の存在を実証する。
論文 参考訳(メタデータ) (2020-01-06T06:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。