論文の概要: Adversarial Robustness for Visual Grounding of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2405.09981v1
- Date: Thu, 16 May 2024 10:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:31:57.705379
- Title: Adversarial Robustness for Visual Grounding of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの視覚的グラウンド化のための逆ロバスト性
- Authors: Kuofeng Gao, Yang Bai, Jiawang Bai, Yong Yang, Shu-Tao Xia,
- Abstract要約: MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
- 参考スコア(独自算出の注目度): 49.71757071535619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have recently achieved enhanced performance across various vision-language tasks including visual grounding capabilities. However, the adversarial robustness of visual grounding remains unexplored in MLLMs. To fill this gap, we use referring expression comprehension (REC) as an example task in visual grounding and propose three adversarial attack paradigms as follows. Firstly, untargeted adversarial attacks induce MLLMs to generate incorrect bounding boxes for each object. Besides, exclusive targeted adversarial attacks cause all generated outputs to the same target bounding box. In addition, permuted targeted adversarial attacks aim to permute all bounding boxes among different objects within a single image. Extensive experiments demonstrate that the proposed methods can successfully attack visual grounding capabilities of MLLMs. Our methods not only provide a new perspective for designing novel attacks but also serve as a strong baseline for improving the adversarial robustness for visual grounding of MLLMs.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、視覚的な接地機能を含む様々な視覚言語タスクにおいて、パフォーマンスの向上を実現している。
しかし、視覚的グラウンドリングの対角的堅牢性は、MLLMでは明らかにされていない。
このギャップを埋めるために、視覚的グラウンドの例として参照表現理解(REC)を用い、以下の3つの逆攻撃パラダイムを提案する。
まず、標的外敵攻撃はMLLMを誘導し、各オブジェクトの不正なバウンディングボックスを生成する。
さらに、排他的標的攻撃は全ての生成された出力を同じターゲット境界ボックスに誘導する。
さらに、パーミュートされた敵攻撃は、1つの画像内の異なるオブジェクト間のすべてのバウンディングボックスをパーミュートすることを目的としている。
大規模な実験により,提案手法がMLLMの視覚的接地能力を効果的に攻撃できることが実証された。
本手法は,新規な攻撃を設計するための新たな視点を提供するだけでなく,MLLMの視覚的接地に対する対角的ロバスト性向上のための強力なベースラインとしても機能する。
関連論文リスト
- Hiding-in-Plain-Sight (HiPS) Attack on CLIP for Targetted Object Removal from Images [3.537369004801589]
Hiding-in-Plain-Sight (HiPS) 攻撃はターゲットオブジェクトを選択的に隠蔽することでモデル予測を微調整する
本稿では,HPS-clsとHiPS-capの2種類のHiPS攻撃モデルを提案し,下流画像キャプションモデルへの転送の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-16T20:11:32Z) - AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - GAMA: Generative Adversarial Multi-Object Scene Attacks [48.33120361498787]
本稿では,多目的シーンに対する敵攻撃に対する生成モデルを用いた最初のアプローチを提案する。
我々はこの攻撃アプローチをGAMA(Generative Adversarial Multi-Object scene Attacks)と呼ぶ。
論文 参考訳(メタデータ) (2022-09-20T06:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。