論文の概要: JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.01599v1
- Date: Wed, 26 Jun 2024 02:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:11:58.675050
- Title: JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models
- Title(参考訳): JailbreakZoo:大規模言語と視覚言語モデルのジェイルブレイクにおける調査、景観、ホライズン
- Authors: Haibo Jin, Leyang Hu, Xinuo Li, Peiyan Zhang, Chonghan Chen, Jun Zhuang, Haohan Wang,
- Abstract要約: 大規模言語モデル(LLM)と視覚言語モデル(VLM)は、セキュリティと倫理的整合性に関する懸念を提起する。
今回の研究は、ジェイルブレイクを7つの異なるタイプに分類し、これらの脆弱性に対処する防衛戦略を精査する。
我々の発見は、次世代の言語モデルのための堅牢でセキュアで信頼性の高い環境を育むために、ジェイルブレイク戦略と防御ソリューションの両方を統合する統一的な視点の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 12.338360007906504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of artificial intelligence (AI) through developments in Large Language Models (LLMs) and Vision-Language Models (VLMs) has brought significant advancements across various technological domains. While these models enhance capabilities in natural language processing and visual interactive tasks, their growing adoption raises critical concerns regarding security and ethical alignment. This survey provides an extensive review of the emerging field of jailbreaking--deliberately circumventing the ethical and operational boundaries of LLMs and VLMs--and the consequent development of defense mechanisms. Our study categorizes jailbreaks into seven distinct types and elaborates on defense strategies that address these vulnerabilities. Through this comprehensive examination, we identify research gaps and propose directions for future studies to enhance the security frameworks of LLMs and VLMs. Our findings underscore the necessity for a unified perspective that integrates both jailbreak strategies and defensive solutions to foster a robust, secure, and reliable environment for the next generation of language models. More details can be found on our website: \url{https://chonghan-chen.com/llm-jailbreak-zoo-survey/}.
- Abstract(参考訳): 大規模言語モデル(LLMs)と視覚言語モデル(VLMs)の発展による人工知能(AI)の急速な進化は、様々な技術領域で大きな進歩をもたらした。
これらのモデルが自然言語処理や視覚的対話タスクの能力を高める一方で、それらの採用の増加は、セキュリティと倫理的整合性に関する重要な懸念を提起する。
本調査は, LLM と VLM の倫理的・運用的境界を未然に回避し, そして, 防衛機構の発達の進展を概観するものである。
今回の研究は、ジェイルブレイクを7つの異なるタイプに分類し、これらの脆弱性に対処する防衛戦略を精査する。
この総合的な調査を通じて,研究のギャップを特定し,LLMとVLMのセキュリティフレームワークを強化するための今後の研究の方向性を提案する。
我々の発見は、次世代の言語モデルのための堅牢でセキュアで信頼性の高い環境を育むために、ジェイルブレイク戦略と防御ソリューションの両方を統合する統一的な視点の必要性を浮き彫りにしている。
詳細は、私たちのWebサイト(リンク)で確認できます。
関連論文リスト
- A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。
ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。
本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:57:30Z) - From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking [32.300594239333236]
Large Language Models (LLM) と Multimodal Large Language Models (MLLM) は、様々な攻撃に対して脆弱性を暴露している。
本稿では, LLM と MLLM を対象とするジェイルブレーキング研究の概要を概説し, 評価ベンチマーク, 攻撃技術, 防衛戦略の最近の進歩に注目した。
論文 参考訳(メタデータ) (2024-06-21T04:33:48Z) - Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey [46.19229410404056]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
これらのモデルは、強力な言語理解と生成能力を示すために、広大なデータセットでトレーニングされている。
プライバシーとセキュリティの問題は、そのライフサイクルを通じて明らかになっている。
論文 参考訳(メタデータ) (2024-06-12T07:55:32Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models [20.40158210837289]
Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法について検討した。
以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T01:26:39Z) - A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-30T06:04:04Z) - Security and Privacy Challenges of Large Language Models: A Survey [2.9480813253164535]
LLM(Large Language Models)は、テキストの生成や要約、言語翻訳、質問応答など、非常に優れた機能を示し、複数の分野に貢献している。
これらのモデルは、Jailbreak攻撃、データ中毒攻撃、Personally Identible Information(PII)漏洩攻撃など、セキュリティやプライバシ攻撃にも脆弱である。
この調査では、トレーニングデータとユーザの両方に対するLLMのセキュリティとプライバシの課題と、輸送、教育、医療といったさまざまな領域におけるアプリケーションベースのリスクについて、徹底的にレビューする。
論文 参考訳(メタデータ) (2024-01-30T04:00:54Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。