論文の概要: Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions
- arxiv url: http://arxiv.org/abs/2502.04322v1
- Date: Thu, 06 Feb 2025 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:43.522276
- Title: Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions
- Title(参考訳): 簡単な対話でLLMから有害なジェイルブレイクを回避できるSpeak Easy
- Authors: Yik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi,
- Abstract要約: 大規模言語モデル(LLM)は、有害な行動を引き起こすジェイルブレイク攻撃に対して脆弱なままである。
悪意のあるユーザは、有害な意図のために、共通のインタラクションパターンを簡単に活用することができます。
- 参考スコア(独自算出の注目度): 11.32190215797298
- License:
- Abstract: Despite extensive safety alignment efforts, large language models (LLMs) remain vulnerable to jailbreak attacks that elicit harmful behavior. While existing studies predominantly focus on attack methods that require technical expertise, two critical questions remain underexplored: (1) Are jailbroken responses truly useful in enabling average users to carry out harmful actions? (2) Do safety vulnerabilities exist in more common, simple human-LLM interactions? In this paper, we demonstrate that LLM responses most effectively facilitate harmful actions when they are both actionable and informative--two attributes easily elicited in multi-step, multilingual interactions. Using this insight, we propose HarmScore, a jailbreak metric that measures how effectively an LLM response enables harmful actions, and Speak Easy, a simple multi-step, multilingual attack framework. Notably, by incorporating Speak Easy into direct request and jailbreak baselines, we see an average absolute increase of 0.319 in Attack Success Rate and 0.426 in HarmScore in both open-source and proprietary LLMs across four safety benchmarks. Our work reveals a critical yet often overlooked vulnerability: Malicious users can easily exploit common interaction patterns for harmful intentions.
- Abstract(参考訳): 大規模な安全確保努力にもかかわらず、大きな言語モデル(LLM)は、有害な行動を引き起こすジェイルブレイク攻撃に弱いままである。
既存の研究は、技術的な専門知識を必要とする攻撃方法に重点を置いているが、2つの重要な疑問は未解決のままである。
2)より一般的で単純な人間とLLMの相互作用に安全性の脆弱性は存在するか?
本稿では,LLM応答が多段階多言語間相互作用において容易に引き起こされる2つの属性に対して,行動可能かつ情報的の両方である場合に,最も効果的に有害な作用を促進できることを実証する。
この知見を用いて, LLM 応答が有害な作用をいかに効果的に行うかを測定するjailbreak メトリックである HarmScore と, 単純な多段階多言語攻撃フレームワークである Speak Easy を提案する。
特に、Speak Easyをダイレクトリクエストとジェイルブレイクベースラインに組み込むことで、4つの安全ベンチマークでオープンソースとプロプライエタリなLCMの両方で、アタック成功率0.319とHarmScoreの0.426の絶対的な増加が見られる。
悪意のあるユーザは、有害な意図のために、共通のインタラクションパターンを簡単に活用することができます。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [35.7801861576917]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
既存のjailbreakメソッドには、複雑なプロンプトエンジニアリングと反復最適化の2つの大きな制限がある。
本稿では,LLMの高度な推論能力を活用し,有害コンテンツを自律的に生成する効率的なジェイルブレイク攻撃手法であるAnalyzing-based Jailbreak(ABJ)を提案する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks [89.54736699767315]
我々は、LLMの有害な知識を直接解き放つことは、脱獄攻撃から守るためのより効果的な方法になり得ると推測する。
Vicuna-7Bの攻撃成功率(ASR)は82.6%から7.7%に低下した。
Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。
eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。