論文の概要: Prompt Overflow: What the Guardrail Inspects Is Not What the Model Infers
- arxiv url: http://arxiv.org/abs/2605.23196v1
- Date: Fri, 22 May 2026 03:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.186013
- Title: Prompt Overflow: What the Guardrail Inspects Is Not What the Model Infers
- Title(参考訳): Prompt Overflow:ガードレールの検査はモデルが推測するものではない
- Authors: Yuanbo Zhou, Changjia Zhu, Junyu Wang, Xu He, Yan Zhai, Kun Sun, Mingkui Wei, Junjie Xiong,
- Abstract要約: Guardrailモデルは、大きな言語モデル(LLM)に到達する前に、ユーザ入力をスクリーニングするために広くデプロイされます。
本稿では,ガードレールモデルの限られた検査窓と下流LLMのかなり大きなコンテキスト推論窓とのミスマッチを利用した,プロンプトオーバーフロー攻撃を提案する。
ショートコンテクスト設定で確実に検出されたプロンプトは、オーバーロング入力に逆向きに操作するとガードレールモデルを回避することができることを示す。
- 参考スコア(独自算出の注目度): 22.77036856603702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guardrail models (a.k.a. safety checkers) are widely deployed to screen user inputs before they reach large language models (LLMs), serving as a primary defense against prompt injection attacks. Due to strict context constraints, these models handle overlength prompts through truncation or segmentation-based inspection. While prior work has focused on semantic adversarial inputs, the security implications of these long-input processing mechanisms remain largely unexplored. In this paper, we identify a critical blind spot arising from the mismatch between the limited inspection windows of guardrail models and the substantially larger context inference windows of downstream LLMs. We introduce a novel Prompt Overflow Attack, which exploits this mismatch by fragmenting malicious instructions and interleaving them with benign filler content across an overlong prompt, such that no individual inspected segment appears malicious while the full context remains actionable to the LLM. Through a systematic evaluation against state-of-the-art guardrail models, including Meta Llama Prompt Guard, IBM Granite Guardian, and DeBERTa-based detectors, we demonstrate that prompts reliably detected in short-context settings can evade guardrail models once adversarially manipulated into over-length inputs, yet remain fully actionable by downstream LLMs. We further propose potential defense strategies and outline mitigation directions to strengthen guardrail models.
- Abstract(参考訳): ガードレールモデル(別名セーフティチェッカー)は、大きな言語モデル(LLM)に到達する前にユーザー入力をスクリーニングするために広くデプロイされており、即発インジェクション攻撃に対する主要な防御として機能している。
厳密なコンテキスト制約のため、これらのモデルはトランケーションやセグメンテーションに基づく検査を通じてオーバーロングプロンプトを処理する。
これまではセマンティックな敵対的な入力に焦点を合わせてきたが、これらの長い入力処理機構のセキュリティへの影響は未解明のままである。
本稿では,ガードレールモデルの限られた検査窓と下流LLMのかなり大きなコンテキスト推論窓とのミスマッチから発生する重要な盲点を同定する。
本稿では,このミスマッチを悪質な命令を断片化し,その内容と良質なフィラー内容とを過度なプロンプトでインターリーブすることで活用する,新しいPrompt Overflow攻撃法を提案する。
本稿では,Meta Llama Prompt Guard,IBM Granite Guardian,DeBERTaなどの最先端ガードレールモデルに対する系統的な評価を通じて,短文設定で確実に検出されたプロンプトが,一度オーバーロング入力に逆向きに操作された場合にガードレールモデルを回避できることを実証する。
さらに,ガードレールモデルを強化するため,防衛戦略の可能性を示唆し,緩和の方向性を概説する。
関連論文リスト
- One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue [55.98008208209856]
マルチターン対話における隠れた悪意のある意図は、大規模言語モデル(LLM)に対する脅威を増大させる
近年の研究では、安全アライメントや外部ガードレールの進歩にもかかわらず、高度なガードレールを備えた近代的な商用モデルでさえも、このような攻撃に対して脆弱であることが示されている。
そこで本研究では,この課題に対処するため,最も早いタイミングで候補応答を届けることによって,蓄積された相互作用が有害な作用を可能にするのに十分であることを示す。
論文 参考訳(メタデータ) (2026-05-07T03:35:31Z) - Prompt Attack Detection with LLM-as-a-Judge and Mixture-of-Models [0.0]
プロンプト攻撃は、大規模言語モデルシステムに重大なセキュリティリスクをもたらす。
運用においては、ガードレールは厳格な低遅延制約の下でこれらの攻撃を軽減する必要がある。
本研究では, LLM がライブガードレールの有効低遅延判定に有効であることを示す。
論文 参考訳(メタデータ) (2026-03-26T08:47:53Z) - Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement [13.976796671311066]
大規模言語モデル (LLM) は、リーチでセマンティックに一貫性のあるジェイルブレイクプロンプトに対して脆弱なままである。
本稿では,LLMアクティベーションにおけるセマンティックファクタペアを推論時にアンタングリングするための自己教師型フレームワークを提案する。
次に、フレーミング表現で動作する異常検出器であるFrameShieldを提案し、モデルに依存しない検出を改善する。
論文 参考訳(メタデータ) (2026-02-23T00:11:30Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Black-Box Guardrail Reverse-engineering Attack [12.937652779951156]
ブラックボックスLLMガードレールのリバースエンジニアリング攻撃に関する最初の研究を行った。
強化学習に基づくフレームワークであるガードレールリバースエンジニアリングアタック(GRA)を提案する。
GRAは、APIコストが85ドル未満で、規則マッチングレートが0.92を超えている。
論文 参考訳(メタデータ) (2025-11-06T09:24:49Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。