Fugu-MT 論文翻訳(概要): Jailbreaking in the Haystack

論文の概要: Jailbreaking in the Haystack

arxiv url: http://arxiv.org/abs/2511.04707v1
Date: Wed, 05 Nov 2025 01:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-10 21:00:44.541959
Title: Jailbreaking in the Haystack
Title（参考訳）: ヘイスタックにおける脱獄
Authors: Rishi Rajesh Shah, Chen Henry Wu, Shashwat Saxena, Ziqian Zhong, Alexander Robey, Aditi Raghunathan,
Abstract要約: NINJA(Needle-in-haystack jailbreak attackの略)は、有害なユーザ目標に良質なモデル生成コンテンツを追加することで、LMをジェイルブレイクする手法である。我々は、NINJAがLLaMA、Qwen、Mistral、Geminiを含む最先端のオープンおよびプロプライエタリモデルの攻撃成功率を著しく向上させることを示した。これらの知見は、注意深いゴール位置決めを施された長いコンテキストでさえ、現代のLMに根本的な脆弱性をもたらすことを示している。
参考スコア（独自算出の注目度）: 64.82605038772253
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in long-context language models (LMs) have enabled million-token inputs, expanding their capabilities across complex tasks like computer-use agents. Yet, the safety implications of these extended contexts remain unclear. To bridge this gap, we introduce NINJA (short for Needle-in-haystack jailbreak attack), a method that jailbreaks aligned LMs by appending benign, model-generated content to harmful user goals. Critical to our method is the observation that the position of harmful goals play an important role in safety. Experiments on standard safety benchmark, HarmBench, show that NINJA significantly increases attack success rates across state-of-the-art open and proprietary models, including LLaMA, Qwen, Mistral, and Gemini. Unlike prior jailbreaking methods, our approach is low-resource, transferable, and less detectable. Moreover, we show that NINJA is compute-optimal -- under a fixed compute budget, increasing context length can outperform increasing the number of trials in best-of-N jailbreak. These findings reveal that even benign long contexts -- when crafted with careful goal positioning -- introduce fundamental vulnerabilities in modern LMs.
Abstract（参考訳）: 近年のLong-context Language Model (LM) の進歩により、100万の入力が可能となり、コンピュータ利用エージェントのような複雑なタスクにその能力を拡張している。しかし、これらの拡張コンテキストの安全性への影響はいまだ不明である。このギャップを埋めるためにNINJA(Needle-in-haystack jailbreak attackの略)を導入します。本手法は,有害な目標の位置が安全に重要な役割を担っていることを観察する上で重要である。標準安全ベンチマークであるHarmBenchの実験によると、NINJAはLLaMA、Qwen、Mistral、Geminiなど、最先端のオープンおよびプロプライエタリモデルの攻撃成功率を大幅に向上させる。従来のjailbreak方法とは異なり、我々のアプローチは低リソースで、転送可能で、検出しにくい。さらに、NINJAが計算最適であることを示し、固定された計算予算の下では、コンテキスト長の増加は、最高のNジェイルブレイクにおける試行回数の増加よりも優れることを示す。これらの知見は、注意深いゴール位置決めを施された長いコンテキストでさえ、現代のLMに根本的な脆弱性をもたらすことを示している。

論文の概要: Jailbreaking in the Haystack

関連論文リスト