論文の概要: Jailbreaking Large Language Models in Infinitely Many Ways
- arxiv url: http://arxiv.org/abs/2501.10800v1
- Date: Sat, 18 Jan 2025 15:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:04.474840
- Title: Jailbreaking Large Language Models in Infinitely Many Ways
- Title(参考訳): 大規模言語モデルを無限に多くの方法でジェイルブレイクする
- Authors: Oliver Goldstein, Emanuele La Malfa, Felix Drinkall, Samuele Marro, Michael Wooldridge,
- Abstract要約: 我々は、最も強力なオープンソースLLMの保護を回避し、その安全ポリシーに明示的に違反するコンテンツを生成する方法を示す。
実装が容易な攻撃の2つのカテゴリについて,トークンと埋め込み空間の2つの防御戦略について論じる。
- 参考スコア(独自算出の注目度): 3.5674816606221182
- License:
- Abstract: We discuss the "Infinitely Many Meanings" attacks (IMM), a category of jailbreaks that leverages the increasing capabilities of a model to handle paraphrases and encoded communications to bypass their defensive mechanisms. IMMs' viability pairs and grows with a model's capabilities to handle and bind the semantics of simple mappings between tokens and work extremely well in practice, posing a concrete threat to the users of the most powerful LLMs in commerce. We show how one can bypass the safeguards of the most powerful open- and closed-source LLMs and generate content that explicitly violates their safety policies. One can protect against IMMs by improving the guardrails and making them scale with the LLMs' capabilities. For two categories of attacks that are straightforward to implement, i.e., bijection and encoding, we discuss two defensive strategies, one in token and the other in embedding space. We conclude with some research questions we believe should be prioritised to enhance the defensive mechanisms of LLMs and our understanding of their safety.
- Abstract(参考訳): Infinitely Many Meanings(IMM)攻撃について論じる。これは、パラフレーズを扱うモデルや、防御機構をバイパスするエンコードされた通信能力の増大を利用するジェイルブレイクのカテゴリである。
IMMは、トークン間の単純なマッピングのセマンティクスを処理し、結合するモデルの能力と組み合わせて成長し、実際に非常にうまく機能する。
我々は、最も強力なオープンソースLLMの保護を回避し、その安全ポリシーに明示的に違反するコンテンツを生成する方法を示す。
ガードレールを改善し、LLMの能力でスケールさせることで、IMMから保護することができる。
ビジェクションとエンコーディングという,実装が容易な攻撃の2つのカテゴリについて,トークンと埋め込み空間における2つの防御戦略について議論する。
我々は,LSMの防御機構と安全性の理解を高めるために優先すべきと考えるいくつかの研究課題を結論付けた。
関連論文リスト
- Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。
ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。
本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:57:30Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Round Trip Translation Defence against Large Language Model Jailbreaking
Attacks [12.664577378692703]
大規模言語モデル(LLM)に対する社会工学的攻撃に対する防御のためのラウンドトリップ翻訳(RTT)手法を提案する。
RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。
私たちはMathsAttackを緩和し、攻撃の成功率を約40%削減した最初の試みです。
論文 参考訳(メタデータ) (2024-02-21T03:59:52Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。