論文の概要: On Evaluating Adversarial Robustness of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.16934v2
- Date: Sun, 29 Oct 2023 12:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:04:02.247800
- Title: On Evaluating Adversarial Robustness of Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルの逆ロバスト性評価について
- Authors: Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Chongxuan Li, Ngai-Man
Cheung, Min Lin
- Abstract要約: 大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
- 参考スコア(独自算出の注目度): 64.66104342002882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) such as GPT-4 have achieved unprecedented
performance in response generation, especially with visual inputs, enabling
more creative and adaptable interaction than large language models such as
ChatGPT. Nonetheless, multimodal generation exacerbates safety concerns, since
adversaries may successfully evade the entire system by subtly manipulating the
most vulnerable modality (e.g., vision). To this end, we propose evaluating the
robustness of open-source large VLMs in the most realistic and high-risk
setting, where adversaries have only black-box system access and seek to
deceive the model into returning the targeted responses. In particular, we
first craft targeted adversarial examples against pretrained models such as
CLIP and BLIP, and then transfer these adversarial examples to other VLMs such
as MiniGPT-4, LLaVA, UniDiffuser, BLIP-2, and Img2Prompt. In addition, we
observe that black-box queries on these VLMs can further improve the
effectiveness of targeted evasion, resulting in a surprisingly high success
rate for generating targeted responses. Our findings provide a quantitative
understanding regarding the adversarial vulnerability of large VLMs and call
for a more thorough examination of their potential security flaws before
deployment in practice. Code is at https://github.com/yunqing-me/AttackVLM.
- Abstract(参考訳): GPT-4のような大きな視覚言語モデル(VLM)は、特に視覚入力で応答生成において前例のない性能を達成し、ChatGPTのような大きな言語モデルよりも創造的で適応的な相互作用を可能にした。
にもかかわらず、マルチモーダル生成は、最も脆弱なモダリティ(視覚など)を微妙に操作することで、敵がシステム全体を回避できるため、安全上の懸念を悪化させる。
そこで本研究では,敵がブラックボックスシステムアクセスのみを持ち,ターゲットとした応答を返すモデルを騙そうとする,最も現実的でハイリスクな環境において,オープンソースの大規模vlmのロバスト性を評価することを提案する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず対象とする対向例を作成し,その対向例を MiniGPT-4,LLaVA,UniDiffuser,BLIP-2,Img2Prompt などの他の VLM に転送する。
さらに,これらのvlm上でのブラックボックスクエリは,目標回避の有効性をさらに向上させ,目標応答の生成に驚くほど高い成功率をもたらすことを確認した。
本研究は,大規模なVLMの敵意的脆弱性について定量的に把握し,実際に展開する前に,その潜在的なセキュリティ欠陥をより徹底的に調査することを求めるものである。
コードはhttps://github.com/yunqing-me/AttackVLMにある。
関連論文リスト
- AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings
for Robust Large Vision-Language Models [46.29675652378619]
OpenFlamingo、LLaVA、GPT-4といったマルチモーダル基盤モデルは、様々な現実世界のタスクにますます使われている。
以前の研究では、これらのモデルは視覚のモダリティに対する敵の攻撃に対して非常に脆弱であることが示されている。
頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:09:48Z) - Stealthy Attack on Large Language Model based Recommendation [25.975404074836582]
大規模言語モデル (LLM) はレコメンダシステム (RS) の進歩を推進している。
本研究では,レコメンデーションモデルにLSMを導入することで,項目のテキスト内容に重点を置いているため,新たなセキュリティ脆弱性が生じることを明らかにした。
攻撃者は、テストフェーズ中に単にテキストの内容を変更するだけで、アイテムの露出を大幅に向上させることができることを実証する。
論文 参考訳(メタデータ) (2024-02-18T16:51:02Z) - On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting
the Risks and Vulnerabilities [50.31806287390321]
ロボットの動作を操作または誤操作することは容易であり、安全上の危険をもたらす。
我々のデータは、即時攻撃で21.2%、知覚攻撃で30.2%の平均的なパフォーマンス劣化を示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Exploring the Adversarial Capabilities of Large Language Models [28.16799731196294]
大きな言語モデル(LLM)は、良心的なサンプルから敵の例を作れば、既存の安全なレールを騙すことができる。
我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。
論文 参考訳(メタデータ) (2024-02-14T12:28:38Z) - Adversarial Prompt Tuning for Vision-Language Models [90.89469048482249]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious
Demonstrations Shows their Vulnerabilities [40.579927521783]
我々は、信頼性に関するオープンソースのLarge Language Modelsの評価を行い、8つの異なる側面でそれらを精査する。
我々は,信頼度攻撃のための巧妙に作り上げた悪意あるデモンストレーションを組み込むことにより,CoU(Chain of Utterances-based)の促進戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。