論文の概要: Jailbreaking in the Haystack
- arxiv url: http://arxiv.org/abs/2511.04707v1
- Date: Wed, 05 Nov 2025 01:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.541959
- Title: Jailbreaking in the Haystack
- Title(参考訳): ヘイスタックにおける脱獄
- Authors: Rishi Rajesh Shah, Chen Henry Wu, Shashwat Saxena, Ziqian Zhong, Alexander Robey, Aditi Raghunathan,
- Abstract要約: NINJA(Needle-in-haystack jailbreak attackの略)は、有害なユーザ目標に良質なモデル生成コンテンツを追加することで、LMをジェイルブレイクする手法である。
我々は、NINJAがLLaMA、Qwen、Mistral、Geminiを含む最先端のオープンおよびプロプライエタリモデルの攻撃成功率を著しく向上させることを示した。
これらの知見は、注意深いゴール位置決めを施された長いコンテキストでさえ、現代のLMに根本的な脆弱性をもたらすことを示している。
- 参考スコア(独自算出の注目度): 64.82605038772253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in long-context language models (LMs) have enabled million-token inputs, expanding their capabilities across complex tasks like computer-use agents. Yet, the safety implications of these extended contexts remain unclear. To bridge this gap, we introduce NINJA (short for Needle-in-haystack jailbreak attack), a method that jailbreaks aligned LMs by appending benign, model-generated content to harmful user goals. Critical to our method is the observation that the position of harmful goals play an important role in safety. Experiments on standard safety benchmark, HarmBench, show that NINJA significantly increases attack success rates across state-of-the-art open and proprietary models, including LLaMA, Qwen, Mistral, and Gemini. Unlike prior jailbreaking methods, our approach is low-resource, transferable, and less detectable. Moreover, we show that NINJA is compute-optimal -- under a fixed compute budget, increasing context length can outperform increasing the number of trials in best-of-N jailbreak. These findings reveal that even benign long contexts -- when crafted with careful goal positioning -- introduce fundamental vulnerabilities in modern LMs.
- Abstract(参考訳): 近年のLong-context Language Model (LM) の進歩により、100万の入力が可能となり、コンピュータ利用エージェントのような複雑なタスクにその能力を拡張している。
しかし、これらの拡張コンテキストの安全性への影響はいまだ不明である。
このギャップを埋めるためにNINJA(Needle-in-haystack jailbreak attackの略)を導入します。
本手法は,有害な目標の位置が安全に重要な役割を担っていることを観察する上で重要である。
標準安全ベンチマークであるHarmBenchの実験によると、NINJAはLLaMA、Qwen、Mistral、Geminiなど、最先端のオープンおよびプロプライエタリモデルの攻撃成功率を大幅に向上させる。
従来のjailbreak方法とは異なり、我々のアプローチは低リソースで、転送可能で、検出しにくい。
さらに、NINJAが計算最適であることを示し、固定された計算予算の下では、コンテキスト長の増加は、最高のNジェイルブレイクにおける試行回数の増加よりも優れることを示す。
これらの知見は、注意深いゴール位置決めを施された長いコンテキストでさえ、現代のLMに根本的な脆弱性をもたらすことを示している。
関連論文リスト
- Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。
Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。
本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文 参考訳(メタデータ) (2025-07-06T12:19:04Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。