論文の概要: Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries
- arxiv url: http://arxiv.org/abs/2405.20653v3
- Date: Tue, 17 Jun 2025 03:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.026287
- Title: Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries
- Title(参考訳): 不明瞭な心:LLMの拒絶境界における隠れた弱さの解明
- Authors: Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh Hu, Wenbo Guo, Han Liu, Xinyu Xing,
- Abstract要約: 複数のシーケンス(eos)トークンを単に追加するだけで、コンテキストセグメンテーションと呼ばれる現象が発生します。
本稿では, eos トークンを付加することにより, BOOST ジェイルブレイク攻撃の簡単な方法を提案する。
- 参考スコア(独自算出の注目度): 22.24239212756129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have led to impressive alignment where models learn to distinguish harmful from harmless queries through supervised finetuning (SFT) and reinforcement learning from human feedback (RLHF). In this paper, we reveal a subtle yet impactful weakness in these aligned models. We find that simply appending multiple end of sequence (eos) tokens can cause a phenomenon we call context segmentation, which effectively shifts both harmful and benign inputs closer to the refusal boundary in the hidden space. Building on this observation, we propose a straightforward method to BOOST jailbreak attacks by appending eos tokens. Our systematic evaluation shows that this strategy significantly increases the attack success rate across 8 representative jailbreak techniques and 16 open-source LLMs, ranging from 2B to 72B parameters. Moreover, we develop a novel probing mechanism for commercial APIs and discover that major providers such as OpenAI, Anthropic, and Qwen do not filter eos tokens, making them similarly vulnerable. These findings highlight a hidden yet critical blind spot in existing alignment and content filtering approaches. We call for heightened attention to eos tokens' unintended influence on model behaviors, particularly in production systems. Our work not only calls for an input-filtering based defense, but also points to new defenses that make refusal boundaries more robust and generalizable, as well as fundamental alignment techniques that can defend against context segmentation attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、教師付き微調整(SFT)と人間からのフィードバックからの強化学習(RLHF)を通じて、有害なクエリと有害なクエリを区別するモデルを学習する、印象的なアライメントにつながっている。
本稿では,これらの整列モデルの微妙な弱点を明らかにする。
複数のシーケンス(eos)トークンを単に付加するだけで、コンテキストセグメンテーションと呼ばれる現象が起こり、これは隠れた空間の拒絶境界に近い有害な入力と良質な入力の両方を効果的にシフトさせる。
そこで本研究では, eosトークンを付加することにより, BOOST ジェイルブレイク攻撃の簡単な方法を提案する。
本手法は,8つの代表的なジェイルブレイク手法と16のオープンソースLCMにおいて,2Bから72Bパラメータの攻撃成功率を大幅に向上させることを示す。
さらに,商用APIの新規な探索機構を開発し,OpenAIやAnthropic,Qwenといった主要なプロバイダがEosトークンをフィルタリングせず,同様に脆弱であることを確認した。
これらの発見は、既存のアライメントとコンテンツフィルタリングアプローチにおいて、隠れながらも重要な盲点を浮き彫りにしている。
我々は、特に生産システムにおいて、eosトークンがモデル行動に意図しない影響に注意を向けるよう呼びかける。
我々の研究は、入力フィルタリングに基づく防御だけでなく、コンテキストセグメンテーション攻撃に対して防御できる基本的なアライメント技術だけでなく、リファインダの境界をより堅牢で一般化可能な新しい防御も指している。
関連論文リスト
- Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。
LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis [47.81417828399084]
大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。
本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
論文 参考訳(メタデータ) (2024-06-16T03:38:48Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。