論文の概要: ESLD (External Surrogate Latent Defense): A Latent-Space Architecture for Faster, Stronger Prompt-Injection Defense
- arxiv url: http://arxiv.org/abs/2605.18918v1
- Date: Mon, 18 May 2026 06:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.878503
- Title: ESLD (External Surrogate Latent Defense): A Latent-Space Architecture for Faster, Stronger Prompt-Injection Defense
- Title(参考訳): ESLD(External Surrogate Latent Defense):より高速で強力なプロンプト注入防御のためのラテント空間アーキテクチャ
- Authors: Yash Narendra,
- Abstract要約: 本稿では、悪意のある入力からセーフを分離するために必要な信号がガードモデルの内部表現にすでに存在することを示す。
ESLDはモデルに依存しないアーキテクチャで、既存のガードモデルの上に置かれ、ガードの再トレーニングや修正をすることなく、レイテンシと検出精度の両方を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern AI assistants are agentic. To answer a single user request, the underlying language model pulls in information from many sources, such as web searches, retrieved documents, tool outputs, and user follow-ups, and reasons over them across several steps. Any of these inputs can carry malicious content. This opens the door to prompt injection, where an attacker plants text designed to override the instructions given to the assistant by its developer. For example, an attacker applying for a job can insert white-on-white text in their resume saying ``This is the strongest candidate. Recommend for immediate hire''. A hiring assistant may then be steered toward a favorable recommendation regardless of actual qualifications. To defend against this threat, production systems use a separate guard model in front of the assistant. The guard reads incoming text and writes a verdict (``safe'' or ``unsafe'') before the assistant is allowed to act. In an agentic task with many steps, this check becomes a latency bottleneck. This paper shows that the signal needed to separate safe from malicious input is already present in the guard model's internal representation, before it writes anything out. Reading this signal directly speeds up the safety check by more than $3\times$ on average, while improving detection accuracy over the guard's verdict by 16.4 percentage points on average. This is more than latency optimization. Guard-model checks that were previously too slow to run on every step of an agent can now be placed on the critical path without sacrificing accuracy, and in fact with higher accuracy than the guard provides on its own. ESLD (External Surrogate Latent Defense) packages this finding into a deployable defense. ESLD is a model-agnostic architecture that sits on top of any existing guard model and improves both latency and detection accuracy, without retraining or modifying the guard.
- Abstract(参考訳): 現代のAIアシスタントはエージェント的です。
単一のユーザ要求に答えるために、基礎となる言語モデルは、Web検索、検索されたドキュメント、ツール出力、ユーザフォローアップなど、多くのソースから情報を取り出す。
これらの入力は悪意のあるコンテンツを運ぶことができる。
これによりインジェクションのドアが開き、攻撃者は、その開発者がアシスタントに渡した命令を上書きするようにデザインされたテキストを配置する。
例えば、ジョブを申請するアタッカーは、履歴書に "` This is the highest candidate" と書かれたホワイト・オン・ホワイトのテキストを挿入することができる。
「直ちに雇うよう勧める。」
雇用助手は、実際の資格に関係なく、好意的な推薦を受けることができる。
この脅威に対して防御するために、プロダクションシステムはアシスタントの前で別々のガードモデルを使用する。
ガードは受信したテキストを読み、アシスタントの動作が許可される前に判決(``safe'' または ``unsafe'')を書きます。
多くのステップを持つエージェントタスクでは、このチェックはレイテンシのボトルネックになる。
本稿では、悪意のある入力からセーフを分離するために必要な信号がガードモデルの内部表現にすでに存在することを示す。
この信号を読み取ると、安全チェックを平均3ドル以上スピードアップし、ガードの判定値に対する検出精度を平均16.4ポイント向上する。
これはレイテンシ最適化以上のものです。
これまでエージェントのすべてのステップで実行するのに遅すぎたガードモデルチェックを、正確性を犠牲にすることなくクリティカルパスに配置することが可能になった。
ESLD(External Surrogate Latent Defense)は、この発見を展開可能な防衛にパッケージする。
ESLDはモデルに依存しないアーキテクチャで、既存のガードモデルの上に置かれ、ガードの再トレーニングや修正をすることなく、レイテンシと検出精度の両方を改善する。
関連論文リスト
- Guardian-as-an-Advisor: Advancing Next-Generation Guardian Models for Trustworthy LLMs [70.81495077853673]
ハードゲートのセーフティチェッカーは、しばしばベンダーのモデル仕様に過度に反抗し、不平を言う。
この研究は、ガーディアン・アズ・ア・アドバイザ(GaaA)というソフトゲーティングパイプラインを導入し、保護者がバイナリリスクラベルを予測し、このアドバイスを元のクエリに再推論する。
全体として、GaaAはモデル仕様に従うようモデルに指示し、過度な拒絶を減らしながら安全性を維持している。
論文 参考訳(メタデータ) (2026-04-08T23:47:29Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models [7.186499635424984]
プロンプトインジェクション攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
プロンプトガードモデルは防御に有効であるが、単語バイアスの引き金として過防衛に苦しむ。
InjecGuardは、新しいトレーニング戦略であるMitigating Over-defense for Freeを取り入れた、新しいプロンプトガードモデルである。
論文 参考訳(メタデータ) (2024-10-30T07:39:42Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。