論文の概要: PrisonBreak: Jailbreaking Large Language Models with at Most Twenty-Five Targeted Bit-flips
- arxiv url: http://arxiv.org/abs/2412.07192v3
- Date: Thu, 02 Oct 2025 19:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.657536
- Title: PrisonBreak: Jailbreaking Large Language Models with at Most Twenty-Five Targeted Bit-flips
- Title(参考訳): PrisonBreak:205個のターゲットビットフリップを持つ大規模言語モデルの脱獄
- Authors: Zachary Coalson, Jeonghyun Woo, Chris S. Lin, Joyce Qu, Yu Sun, Shiyang Chen, Lishan Yang, Gururaj Saileshwar, Prashant Nair, Bo Fang, Sanghyun Hong,
- Abstract要約: 商業規模の安全対応型大規模言語モデル(LLM)の新たな脆弱性について検討する。
有害な応答を生成することの拒否は、モデルパラメータのほんの数ビットだけを反転させることによって破られる可能性がある。
私たちは5ビットフリップから25ビットフリップのジェイルブレイク言語モデルを作りました。
- 参考スコア(独自算出の注目度): 10.157041060731006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a new vulnerability in commercial-scale safety-aligned large language models (LLMs): their refusal to generate harmful responses can be broken by flipping only a few bits in model parameters. Our attack jailbreaks billion-parameter language models with just 5 to 25 bit-flips, requiring up to 40$\times$ fewer bit flips than prior attacks on much smaller computer vision models. Unlike prompt-based jailbreaks, our method directly uncensors models in memory at runtime, enabling harmful outputs without requiring input-level modifications. Our key innovation is an efficient bit-selection algorithm that identifies critical bits for language model jailbreaks up to 20$\times$ faster than prior methods. We evaluate our attack on 10 open-source LLMs, achieving high attack success rates (ASRs) of 80-98% with minimal impact on model utility. We further demonstrate an end-to-end exploit via Rowhammer-based fault injection, reliably jailbreaking 5 models (69-91% ASR) on a GDDR6 GPU. Our analyses reveal that: (1) models with weaker post-training alignment require fewer bit-flips to jailbreak; (2) certain model components, e.g., value projection layers, are substantially more vulnerable; and (3) the attack is mechanistically different from existing jailbreak methods. We evaluate potential countermeasures and find that our attack remains effective against defenses at various stages of the LLM pipeline.
- Abstract(参考訳): 商業規模で安全に整合した大規模言語モデル(LLM)の新たな脆弱性について検討した。
私たちの攻撃は10億パラメトリックの言語モデルを5~25ビットフリップで攻撃し、それ以前のコンピュータビジョンモデルに対する攻撃よりも40$\times$ less bit flipsを必要とした。
プロンプトベースのジェイルブレイクとは異なり、我々のメソッドは実行時に直接メモリのモデルをアンセンサーし、入力レベルの修正を必要とせずに有害な出力を可能にする。
我々の重要な革新は効率的なビット選択アルゴリズムであり、言語モデルのjailbreakの臨界ビットを、以前のメソッドよりも20$\times$高速に識別する。
10個のオープンソースLCMに対する攻撃を評価し,80~98%の攻撃成功率(ASR)をモデルユーティリティに最小限の影響で達成した。
さらに、Rowhammerベースのフォールトインジェクションにより、GDDR6 GPU上で5つのモデル(69-91% ASR)を確実にジェイルブレイクするエンド・ツー・エンドエクスプロイトを実証する。
分析の結果,(1) トレーニング後のアライメントが弱いモデルではjailbreakのビットフリップが少なくなり,(2) 特定のモデルコンポーネント,例えば値プロジェクション層がより脆弱になり,(3) 攻撃は既存のjailbreak法と機械的に異なることがわかった。
LLMパイプラインの様々な段階において,攻撃が防御に有効であることが確認された。
関連論文リスト
- One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文 参考訳(メタデータ) (2025-05-23T08:02:38Z) - Rubber Mallet: A Study of High Frequency Localized Bit Flips and Their Impact on Security [6.177931523699345]
現代のDRAMの密度は、特定のメモリ行に繰り返しアクセスすることでビットフリップを誘発するRowhammer攻撃に対する脆弱性を高めている。
本稿では,既存のハードウェアディフェンスをバイパスする高度なRowhammer技術によって生成されたビットフリップパターンの解析を行う。
論文 参考訳(メタデータ) (2025-05-02T18:07:07Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
本稿では, LLMの外部特性, 特に入力プロンプトの作り方に着目した新しいjailbreak手法を提案する。
SIJ法は,AdvBench上の5つの有名なオープンLLMに対する攻撃成功率を100%近く達成すると同時に,従来の方法と比較して時間コストの低減を実現している。
そこで本研究では,SIJ に対する対策として SelfReminderKey という簡単な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [47.1955210785169]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation [39.829517061574364]
さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
論文 参考訳(メタデータ) (2023-10-10T20:15:54Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。