論文の概要: How Robust is Google's Bard to Adversarial Image Attacks?
- arxiv url: http://arxiv.org/abs/2309.11751v1
- Date: Thu, 21 Sep 2023 03:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:01:49.126953
- Title: How Robust is Google's Bard to Adversarial Image Attacks?
- Title(参考訳): グーグルの「画像攻撃」はどんなものか?
- Authors: Yinpeng Dong, Huanran Chen, Jiawei Chen, Zhengwei Fang, Xiao Yang,
Yichi Zhang, Yu Tian, Hang Su, Jun Zhu
- Abstract要約: テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。
しかし、ビジョンモデルの非解決対向ロバスト性問題により、MLLMはより厳しい安全性とセキュリティリスクを負う可能性がある。
商用MLLMの脆弱性をよりよく理解するために,GoogleのBardの対角的堅牢性について検討する。
- 参考スコア(独自算出の注目度): 45.92999116520135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) that integrate text and other
modalities (especially vision) have achieved unprecedented performance in
various multimodal tasks. However, due to the unsolved adversarial robustness
problem of vision models, MLLMs can have more severe safety and security risks
by introducing the vision inputs. In this work, we study the adversarial
robustness of Google's Bard, a competitive chatbot to ChatGPT that released its
multimodal capability recently, to better understand the vulnerabilities of
commercial MLLMs. By attacking white-box surrogate vision encoders or MLLMs,
the generated adversarial examples can mislead Bard to output wrong image
descriptions with a 22% success rate based solely on the transferability. We
show that the adversarial examples can also attack other MLLMs, e.g., a 26%
attack success rate against Bing Chat and a 86% attack success rate against
ERNIE bot. Moreover, we identify two defense mechanisms of Bard, including face
detection and toxicity detection of images. We design corresponding attacks to
evade these defenses, demonstrating that the current defenses of Bard are also
vulnerable. We hope this work can deepen our understanding on the robustness of
MLLMs and facilitate future research on defenses. Our code is available at
https://github.com/thu-ml/Attack-Bard.
- Abstract(参考訳): テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。
しかし、視覚モデルの非解決対向ロバスト性問題により、MLLMは視覚入力を導入することにより、より厳しい安全性とセキュリティリスクを持つことができる。
本研究では,ChatGPTの競合チャットボットであるGoogleのBardの対角的堅牢性について検討し,そのマルチモーダル機能を最近リリースし,商用MLLMの脆弱性の理解を深めた。
ホワイトボックス・サロゲート・ビジョンエンコーダ(MLLM)を攻撃することにより、生成した敵の例は、トランスファービリティのみに基づいて、間違った画像記述を22%の成功率で出力することを誤解させる可能性がある。
例えば、Bing Chatに対する攻撃成功率26%、ERNIEボットに対する攻撃成功率86%などである。
さらに,画像の顔検出と毒性検出を含むBardの2つの防御機構を同定した。
我々は、これらの防御を回避するために対応する攻撃をデザインし、bardの現在の防御も脆弱であることを実証する。
本研究がMLLMの堅牢性に対する理解を深め、今後の防衛研究を促進することを願っている。
私たちのコードはhttps://github.com/thu-ml/Attack-Bard.comで利用可能です。
関連論文リスト
- The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。
我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。
以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文 参考訳(メタデータ) (2024-10-20T14:07:24Z) - Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Arms Race in Adversarial Malware Detection: A Survey [33.8941961394801]
悪意あるソフトウェア(マルウェア)は、機械学習(ML)技術に対処しなければならない主要なサイバー脅威である。
MLは敵例として知られる攻撃に対して脆弱である。
ディフェンダーの機能セットを知ることは、転送攻撃の成功に不可欠である。
敵の訓練の有効性は、最も強力な攻撃を識別するディフェンダーの能力に依存する。
論文 参考訳(メタデータ) (2020-05-24T07:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。