論文の概要: Evaluation of Prompt Injection Defenses in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.23887v1
- Date: Sun, 26 Apr 2026 21:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.663258
- Title: Evaluation of Prompt Injection Defenses in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるプロンプト・インジェクション・ディフェンスの評価
- Authors: Priyal Deep, Shane Emmons, Amy Fox, Kyle Bacon, Kelley McAllister, Krisztian Flautner,
- Abstract要約: LLMベースのアプリケーションは、システムプロンプトにシークレットを定期的に埋め込むが、モデルを騙してそれらを明らかにすることができる。
私たちはアダプティブアタックを構築し、数百ラウンドにわたって戦略を進化させ、20,000以上の攻撃に対して9つの防御構成に対してテストしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-powered applications routinely embed secrets in system prompts, yet models can be tricked into revealing them. We built an adaptive attacker that evolves its strategies over hundreds of rounds and tested it against nine defense configurations across more than 20,000 attacks. Every defense that relied on the model to protect itself eventually broke. The only defense that held was output filtering, which checks the model's responses via hardcoded rules in separate application code before they reach the user, achieving zero leaks across 15,000 attacks. These results demonstrate that security boundaries must be enforced in application code, not by the model being attacked. Until such defenses are verified by tools like Swept AI, AI systems handling sensitive operations should be restricted to internal, trusted personnel.
- Abstract(参考訳): LLMベースのアプリケーションはシステムプロンプトにシークレットを定期的に埋め込むが、モデルを騙してそれらを明らかにすることができる。
私たちはアダプティブアタックを構築し、数百ラウンドにわたって戦略を進化させ、20,000以上の攻撃に対して9つの防御構成に対してテストしました。
自らを守るためにモデルに頼っていた全ての防衛は最終的に破綻した。
唯一の防御策は出力フィルタリングであり、15,000の攻撃でゼロリークを達成し、ユーザに到達する前に、別のアプリケーションコードでハードコードされたルールを通じてモデルの応答をチェックする。
これらの結果は、攻撃されるモデルによってではなく、セキュリティ境界がアプリケーションコードで強制されなければならないことを示している。
このような防御がSwept AIのようなツールによって検証されるまでは、機密性の高い操作を扱うAIシステムは、内部の信頼できる人材に限定されるべきである。
関連論文リスト
- AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Defending Against Prompt Injection With a Few DefensiveTokens [44.221727642687085]
大規模言語モデル(LLM)システムは複雑なタスクを実行するために外部データと相互作用する。
システムによってアクセスされたデータに命令を注入することにより、攻撃者は攻撃者が指示する任意のタスクで初期ユーザタスクをオーバーライドすることができる。
システム開発者がフレキシブルな方法で必要な場合にのみセキュリティを確保するためには、例えば防御プロンプトのようなテストタイムディフェンスが提案されている。
トレーニング時の代替に匹敵するプロンプトインジェクションを備えたテストタイムディフェンスであるDefensiveTokenを提案する。
論文 参考訳(メタデータ) (2025-07-10T17:51:05Z) - Fundamental Limitations in Pointwise Defences of LLM Finetuning APIs [56.84338097581665]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models [7.186499635424984]
プロンプトインジェクション攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
プロンプトガードモデルは防御に有効であるが、単語バイアスの引き金として過防衛に苦しむ。
InjecGuardは、新しいトレーニング戦略であるMitigating Over-defense for Freeを取り入れた、新しいプロンプトガードモデルである。
論文 参考訳(メタデータ) (2024-10-30T07:39:42Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Stealthy Backdoor Attack for Code Models [19.272856932095966]
既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では、ステルスなバックドア攻撃によるコードモデルの脆弱性を調査することを目的とする。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
論文 参考訳(メタデータ) (2023-01-06T13:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。