Fugu-MT 論文翻訳(概要): PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips

論文の概要: PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips

arxiv url: http://arxiv.org/abs/2412.07192v1
Date: Tue, 10 Dec 2024 05:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.231029
Title: PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips
Title（参考訳）: PrisonBreak:205個のターゲットビットフリップ未満の大規模言語モデルで脱獄
Authors: Zachary Coalson, Jeonghyun Woo, Shiyang Chen, Yu Sun, Lishan Yang, Prashant Nair, Bo Fang, Sanghyun Hong,
Abstract要約: 本稿では,モデルパラメータのビットワイズによるジェイルブレーキングを誘導する,商用規模(人間対応)の言語モデルに対する新たな攻撃手法を提案する。我々の攻撃は、以前のビットフリップ攻撃と同様のシステムで確実にジェイルブレイクを誘発できることを示す。当社のアプローチは高RH安全性システムに対しても有効である。
参考スコア（独自算出の注目度）: 10.141536491239394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a new class of attacks on commercial-scale (human-aligned) language models that induce jailbreaking through targeted bitwise corruptions in model parameters. Our adversary can jailbreak billion-parameter language models with fewer than 25 bit-flips in all cases$-$and as few as 5 in some$-$using up to 40$\times$ less bit-flips than existing attacks on computer vision models at least 100$\times$ smaller. Unlike prompt-based jailbreaks, our attack renders these models in memory 'uncensored' at runtime, allowing them to generate harmful responses without any input modifications. Our attack algorithm efficiently identifies target bits to flip, offering up to 20$\times$ more computational efficiency than previous methods. This makes it practical for language models with billions of parameters. We show an end-to-end exploitation of our attack using software-induced fault injection, Rowhammer (RH). Our work examines 56 DRAM RH profiles from DDR4 and LPDDR4X devices with different RH vulnerabilities. We show that our attack can reliably induce jailbreaking in systems similar to those affected by prior bit-flip attacks. Moreover, our approach remains effective even against highly RH-secure systems (e.g., 46$\times$ more secure than previously tested systems). Our analyses further reveal that: (1) models with less post-training alignment require fewer bit flips to jailbreak; (2) certain model components, such as value projection layers, are substantially more vulnerable than others; and (3) our method is mechanistically different than existing jailbreaks. Our findings highlight a pressing, practical threat to the language model ecosystem and underscore the need for research to protect these models from bit-flip attacks.
Abstract（参考訳）: 本稿では,モデルパラメータのビットワイズによるジェイルブレーキングを誘導する,商用規模(人間対応)の言語モデルに対する新たな攻撃手法を提案する。私たちの敵は、あらゆるケースで25ビットフリップ未満の10億パラメトリック言語モデルをジェイルブレイクできます。プロンプトベースのジェイルブレイクとは異なり、我々の攻撃はこれらのモデルを実行時にメモリに'アンセンソルド'し、入力変更なしに有害な応答を生成する。我々の攻撃アルゴリズムは、フリップするターゲットビットを効率的に識別し、従来の手法よりも20$\times$以上の計算効率を提供する。これは数十億のパラメータを持つ言語モデルに実用的である。ソフトウェアによる障害注入(Rowhammer, RH)を用いて, エンド・ツー・エンドの攻撃方法を示す。 DDR4とPDDR4Xの56のDRAM RHプロファイルを、異なるRH脆弱性を持つデバイスで調べる。我々の攻撃は、以前のビットフリップ攻撃と同様のシステムで確実にジェイルブレイクを誘発できることを示す。さらに、我々のアプローチは、高RH安全性システム(例えば、46$\times$以前テストされたシステムよりも安全性が高い)に対しても有効である。さらに,(1) トレーニング後アライメントの少ないモデルではjailbreakのビットフリップが少なくなり,(2) 値プロジェクション層などの特定のモデルコンポーネントは,他のモデルよりもかなり脆弱で,(3) 既存のjailbreakと機械的に異なる。我々の発見は、言語モデルエコシステムに対する圧力的で実践的な脅威を浮き彫りにし、これらのモデルがビットフリップ攻撃から守られることの必要性を浮き彫りにしている。

関連論文リスト

One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。 ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文参考訳（メタデータ） (2025-05-23T08:02:38Z)
Rubber Mallet: A Study of High Frequency Localized Bit Flips and Their Impact on Security [6.177931523699345]
現代のDRAMの密度は、特定のメモリ行に繰り返しアクセスすることでビットフリップを誘発するRowhammer攻撃に対する脆弱性を高めている。本稿では,既存のハードウェアディフェンスをバイパスする高度なRowhammer技術によって生成されたビットフリップパターンの解析を行う。
論文参考訳（メタデータ） (2025-05-02T18:07:07Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文参考訳（メタデータ） (2024-12-17T07:33:41Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
本稿では, LLMの外部特性, 特に入力プロンプトの作り方に着目した新しいjailbreak手法を提案する。 SIJ法は,AdvBench上の5つの有名なオープンLLMに対する攻撃成功率を100%近く達成すると同時に,従来の方法と比較して時間コストの低減を実現している。そこで本研究では,SIJ に対する対策として SelfReminderKey という簡単な防御手法を提案する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [47.1955210785169]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文参考訳（メタデータ） (2024-08-17T04:43:26Z)
Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。 PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。 3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文参考訳（メタデータ） (2024-08-15T14:51:32Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation [39.829517061574364]
さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
論文参考訳（メタデータ） (2023-10-10T20:15:54Z)
One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文参考訳（メタデータ） (2023-08-12T09:34:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。