Fugu-MT 論文翻訳(概要): Ceci n'est pas une pomme: Adversarial Illusions in Multi-Modal Embeddings

論文の概要: Ceci n'est pas une pomme: Adversarial Illusions in Multi-Modal Embeddings

arxiv url: http://arxiv.org/abs/2308.11804v1
Date: Tue, 22 Aug 2023 21:57:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-24 16:38:46.847975
Title: Ceci n'est pas une pomme: Adversarial Illusions in Multi-Modal Embeddings
Title（参考訳）: Ceci n'est pas une pomme:マルチモーダル・エンベディングにおける逆イリュージョン
Authors: Eugene Bagdasaryan, Vitaly Shmatikov
Abstract要約: マルチモーダルエンコーダは、画像、音、テキスト、ビデオ等を単一の埋め込み空間にマッピングする。マルチモーダル埋め込みは「逆錯覚」と呼ばれる攻撃に対して脆弱であることを示す。
参考スコア（独自算出の注目度）: 16.712814763678495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal encoders map images, sounds, texts, videos, etc. into a single embedding space, aligning representations across modalities (e.g., associate an image of a dog with a barking sound). We show that multi-modal embeddings can be vulnerable to an attack we call "adversarial illusions." Given an input in any modality, an adversary can perturb it so as to make its embedding close to that of an arbitrary, adversary-chosen input in another modality. Illusions thus enable the adversary to align any image with any text, any text with any sound, etc. Adversarial illusions exploit proximity in the embedding space and are thus agnostic to downstream tasks. Using ImageBind embeddings, we demonstrate how adversarially aligned inputs, generated without knowledge of specific downstream tasks, mislead image generation, text generation, and zero-shot classification.
Abstract（参考訳）: マルチモーダルエンコーダは、画像、音、テキスト、ビデオなどを単一の埋め込み空間にマッピングし、モダリティ間で表現を整列させる(例えば、犬のイメージとバーキングサウンドを関連付ける)。マルチモーダル埋め込みは「敵の錯覚」と呼ばれる攻撃に対して脆弱であることを示す。任意のモダリティの入力が与えられたとき、敵はそれを摂動させ、その埋め込みを別のモダリティの任意の逆朝銭入力に近いものにすることができる。これにより、敵はどんな画像でもどんなテキストでも、どんなテキストでもどんな音でも整列できる。逆錯覚は埋め込み空間に近付くことを利用しており、従って下流のタスクとは無関係である。 ImageBind埋め込みを用いて、特定の下流タスク、ミスリード画像生成、テキスト生成、ゼロショット分類の知識を必要とせず、逆アライメントされた入力がどのように生成されるかを示す。

関連論文リスト

Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Unsegment Anything by Simulating Deformation [67.10966838805132]
「無声化」とは、「無声化の権利」を画像に付与する作業である。我々は、全てのプロンプトベースセグメンテーションモデルに対して、転送可能な敵攻撃を実現することを目指している。本手法は, 画像エンコーダの特徴を破壊し, 即時攻撃を実現することに焦点を当てる。
論文参考訳（メタデータ） (2024-04-03T09:09:42Z)
ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-10-31T06:11:23Z)
IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks [16.577595936609665]
本稿では,画像再サンプリングという,敵対的攻撃に対する新たなアプローチを提案する。画像再サンプリングは、幾何学的変換によって指定されたシーンの再調整や再レンダリングの過程をシミュレートして、離散画像を新しい画像に変換する。本手法は,クリーンな画像の精度を維持しつつ,多様な深層モデルの様々な攻撃に対する対角的堅牢性を著しく向上することを示す。
論文参考訳（メタデータ） (2023-10-18T11:19:32Z)
I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文参考訳（メタデータ） (2023-06-13T07:35:28Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Content-based Unrestricted Adversarial Attack [53.181920529225906]
本稿では,コンテンツベース非制限攻撃という新たな非制限攻撃フレームワークを提案する。自然像を表す低次元多様体を利用することで、像を多様体上に写像し、その逆方向に沿って最適化する。
論文参考訳（メタデータ） (2023-05-18T02:57:43Z)
Sound-Guided Semantic Image Manipulation [19.01823634838526]
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-11-30T13:30:12Z)
Exploring Adversarial Robustness of Multi-Sensor Perception Systems in Self Driving [87.3492357041748]
本稿では,敵物体をホスト車両の上に配置することで,マルチセンサ検出の実用的感受性を示す。実験の結果, 攻撃が成功した原因は主に画像の特徴が損なわれやすいことが判明した。よりロバストなマルチモーダル知覚システムに向けて,特徴分断を伴う敵対的訓練が,このような攻撃に対するロバスト性を大幅に高めることを示す。
論文参考訳（メタデータ） (2021-01-17T21:15:34Z)
Generating Semantic Adversarial Examples via Feature Manipulation [23.48763375455514]
本稿では,意味的意味を持つ構造的摂動を設計することで,より現実的な敵攻撃を提案する。提案手法は,非絡み付きラテント符号を用いて画像の意味的属性を演算する。我々は、普遍的で画像に依存しないセマンティック・逆境の例の存在を実証する。
論文参考訳（メタデータ） (2020-01-06T06:28:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。