論文の概要: TwinBreak: Jailbreaking LLM Security Alignments based on Twin Prompts
- arxiv url: http://arxiv.org/abs/2506.07596v1
- Date: Mon, 09 Jun 2025 09:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.89863
- Title: TwinBreak: Jailbreaking LLM Security Alignments based on Twin Prompts
- Title(参考訳): TwinBreak: Twin PromptsをベースとしたLLMセキュリティアライメントの脱獄
- Authors: Torsten Krauß, Hamid Dashtbani, Alexandra Dmitrienko,
- Abstract要約: 大きな言語モデル(LLM)は、日々の生活にますます統合されています。
LLMは有害なプロンプトを送信することによって悪意のあるユーザによって悪用される。
これを軽減するために、モデルはしばしば、そのようなプロンプトを自動的に拒否するセキュリティメカニズムを含んでいる。
本稿では,革新的な安全アライメント除去手法であるTwinBreakを紹介する。
- 参考スコア(独自算出の注目度): 46.28697638539384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning is advancing rapidly, with applications bringing notable benefits, such as improvements in translation and code generation. Models like ChatGPT, powered by Large Language Models (LLMs), are increasingly integrated into daily life. However, alongside these benefits, LLMs also introduce social risks. Malicious users can exploit LLMs by submitting harmful prompts, such as requesting instructions for illegal activities. To mitigate this, models often include a security mechanism that automatically rejects such harmful prompts. However, they can be bypassed through LLM jailbreaks. Current jailbreaks often require significant manual effort, high computational costs, or result in excessive model modifications that may degrade regular utility. We introduce TwinBreak, an innovative safety alignment removal method. Building on the idea that the safety mechanism operates like an embedded backdoor, TwinBreak identifies and prunes parameters responsible for this functionality. By focusing on the most relevant model layers, TwinBreak performs fine-grained analysis of parameters essential to model utility and safety. TwinBreak is the first method to analyze intermediate outputs from prompts with high structural and content similarity to isolate safety parameters. We present the TwinPrompt dataset containing 100 such twin prompts. Experiments confirm TwinBreak's effectiveness, achieving 89% to 98% success rates with minimal computational requirements across 16 LLMs from five vendors.
- Abstract(参考訳): 機械学習は急速に進歩しており、翻訳やコード生成の改善など、アプリケーションが顕著なメリットをもたらしている。
大規模言語モデル(LLM)を利用したChatGPTのようなモデルは、日々の生活にますます統合されている。
しかし、これらの利益とともに、LLMは社会的なリスクももたらします。
悪意のあるユーザは、違法行為の指示を求めるなど、有害なプロンプトを提出することでLSMを利用することができる。
これを軽減するために、モデルはしばしば、このような有害なプロンプトを自動的に拒否するセキュリティメカニズムを含んでいる。
しかし、これらはLLMジェイルブレイクをバイパスすることができる。
現在のジェイルブレイクは、しばしばかなりの手作業、高い計算コスト、あるいは通常の実用性を低下させるような過剰なモデル修正を必要とする。
本稿では,革新的な安全アライメント除去手法であるTwinBreakを紹介する。
TwinBreakは、安全機構が組み込まれたバックドアのように機能するという考えに基づいて、この機能に責任があるパラメータを特定し、特定する。
最も関連性の高いモデルレイヤに焦点を当てることで、TwinBreakは、実用性と安全性をモデル化するために必要なパラメータのきめ細かい分析を行う。
TwinBreakは、安全パラメータの分離と高い構造と内容の類似性を持つプロンプトから中間出力を分析する最初の方法である。
ツインプロンプトを100個含むツインプロンプトデータセットを提案する。
実験により、TwinBreakの有効性が確認され、成功率は89%から98%となり、5つのベンダーから16のLLMにまたがる最小の計算要件が達成された。
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。
問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。
大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T11:08:28Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。