論文の概要: BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage
- arxiv url: http://arxiv.org/abs/2506.02479v1
- Date: Tue, 03 Jun 2025 05:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.306111
- Title: BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage
- Title(参考訳): BitBypass: Bitstream Camouflageを使った大規模言語モデルのジェイルブレークの新たな方向
- Authors: Kalyan Nakka, Nitesh Saxena,
- Abstract要約: 本稿では,ハイフン分離したビットストリームカモフラージュを利用した新しいブラックボックスジェイルブレイク攻撃BitBypassを開発した。
我々は,GPT-4o,Gemini,Claude 3.5,Llama 3.1,Mixtralの5つの最先端LCMの評価を行い,BitBypassが安全アライメントを回避し,有害かつ不安全なコンテンツを生成する能力を明らかにした。
- 参考スコア(独自算出の注目度): 1.7930036479971307
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The inherent risk of generating harmful and unsafe content by Large Language Models (LLMs), has highlighted the need for their safety alignment. Various techniques like supervised fine-tuning, reinforcement learning from human feedback, and red-teaming were developed for ensuring the safety alignment of LLMs. However, the robustness of these aligned LLMs is always challenged by adversarial attacks that exploit unexplored and underlying vulnerabilities of the safety alignment. In this paper, we develop a novel black-box jailbreak attack, called BitBypass, that leverages hyphen-separated bitstream camouflage for jailbreaking aligned LLMs. This represents a new direction in jailbreaking by exploiting fundamental information representation of data as continuous bits, rather than leveraging prompt engineering or adversarial manipulations. Our evaluation of five state-of-the-art LLMs, namely GPT-4o, Gemini 1.5, Claude 3.5, Llama 3.1, and Mixtral, in adversarial perspective, revealed the capabilities of BitBypass in bypassing their safety alignment and tricking them into generating harmful and unsafe content. Further, we observed that BitBypass outperforms several state-of-the-art jailbreak attacks in terms of stealthiness and attack success. Overall, these results highlights the effectiveness and efficiency of BitBypass in jailbreaking these state-of-the-art LLMs.
- Abstract(参考訳): LLM(Large Language Models)によって有害で安全でないコンテンツを生成するという本質的にのリスクは、それらの安全性の整合性の必要性を強調している。
LLMの安全性確保のため, 教師付き微調整, 人的フィードバックからの強化学習, レッドチームなど, 様々な技術が開発された。
しかしながら、これらの整列 LLM の堅牢性は、探索されていない、基礎となる安全アライメントの脆弱性を悪用する敵攻撃によって常に挑戦される。
本稿では,ハイフン分離したビットストリームカモフラージュを併用した新しいブラックボックスジェイルブレイク攻撃BitBypassを開発した。
これは、迅速なエンジニアリングや敵の操作を活用するのではなく、データの基本的な情報表現を連続的なビットとして活用することで、ジェイルブレイクの新たな方向を示す。
我々は,GPT-4o,Gemini 1.5,Claude 3.5,Llama 3.1,Mixtralの5つの最先端LCMの評価を行った。
さらに、BitBypassは、ステルス性と攻撃の成功の観点から、最先端のジェイルブレイク攻撃よりも優れています。
全体として、これらの結果は、最先端のLLMをジェイルブレイクする際のBitBypassの有効性と効率性を強調している。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。