論文の概要: PISmith: Reinforcement Learning-based Red Teaming for Prompt Injection Defenses
- arxiv url: http://arxiv.org/abs/2603.13026v1
- Date: Fri, 13 Mar 2026 14:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.121216
- Title: PISmith: Reinforcement Learning-based Red Teaming for Prompt Injection Defenses
- Title(参考訳): PISmith: プロンプトインジェクションディフェンスのための強化学習ベースのレッドチーム
- Authors: Chenlong Yin, Runpeng Geng, Yanting Wang, Jinyuan Jia,
- Abstract要約: PISmithは,既存のプロンプト・インジェクション・ディフェンスを評価するフレームワークである。
強力な防御に標準GRPOを適用すると、準最適性能が得られることが判明した。
適応的エントロピー正則化と動的優位重み付けを導入し、探索を継続し、少ない成功から学習を増幅する。
- 参考スコア(独自算出の注目度): 19.85522880335499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection poses serious security risks to real-world LLM applications, particularly autonomous agents. Although many defenses have been proposed, their robustness against adaptive attacks remains insufficiently evaluated, potentially creating a false sense of security. In this work, we propose PISmith, a reinforcement learning (RL)-based red-teaming framework that systematically assesses existing prompt-injection defenses by training an attack LLM to optimize injected prompts in a practical black-box setting, where the attacker can only query the defended LLM and observe its outputs. We find that directly applying standard GRPO to attack strong defenses leads to sub-optimal performance due to extreme reward sparsity -- most generated injected prompts are blocked by the defense, causing the policy's entropy to collapse before discovering effective attack strategies, while the rare successes cannot be learned effectively. In response, we introduce adaptive entropy regularization and dynamic advantage weighting to sustain exploration and amplify learning from scarce successes. Extensive evaluation on 13 benchmarks demonstrates that state-of-the-art prompt injection defenses remain vulnerable to adaptive attacks. We also compare PISmith with 7 baselines across static, search-based, and RL-based attack categories, showing that PISmith consistently achieves the highest attack success rates. Furthermore, PISmith achieves strong performance in agentic settings on InjecAgent and AgentDojo against both open-source and closed-source LLMs (e.g., GPT-4o-mini and GPT-5-nano). Our code is available at https://github.com/albert-y1n/PISmith.
- Abstract(参考訳): プロンプト注入は、現実世界のLLMアプリケーション、特に自律エージェントに深刻なセキュリティリスクをもたらす。
多くの防衛策が提案されているが、アダプティブアタックに対する堅牢性はまだ十分に評価されておらず、偽のセキュリティ感覚を生じさせる可能性がある。
そこで本研究では,攻撃型LPMをトレーニングし,攻撃型LSMに対して,防御型LMMに問い合わせてその出力を観測するのみが可能な,強化学習(RL)ベースのレッドチーム化フレームワークであるPISmithを提案する。
強い防御に標準のGRPOを直接適用すると、極端な報酬の間隔による最適以下のパフォーマンスが得られ、ほとんどの誘導プロンプトは防衛によってブロックされ、効果的な攻撃戦略を発見する前に政策のエントロピーが崩壊し、稀な成功は効果的に学べない。
適応的エントロピー正規化と動的優位重み付けを導入し,探索を継続し,少ない成功から学習を増幅する。
13のベンチマークの大規模な評価は、最先端のプロンプトインジェクションディフェンスが適応攻撃に対して脆弱であることを示している。
また、PISmithを静的、検索ベース、およびRLベースの攻撃カテゴリの7つのベースラインと比較し、PISmithが常に最高の攻撃成功率を達成することを示す。
さらに、PISmithはInjecAgentとAgentDojoのエージェント設定において、オープンソースとクローズドソースの両方のLLM(例えば、GPT-4o-miniとGPT-5-nano)に対して強力なパフォーマンスを実現している。
私たちのコードはhttps://github.com/albert-y1n/PISmith.comで利用可能です。
関連論文リスト
- RL Is a Hammer and LLMs Are Nails: A Simple Reinforcement Learning Recipe for Strong Prompt Injection [82.41836544860833]
RL-Hammerは、攻撃モデルを訓練するためのシンプルなレシピで、強力なプロンプトインジェクションを実行するために自動的に学習する。
我々は,高度に効果的で普遍的な攻撃を可能にする実用的手法のセットを提案する。
RL-Hammerは、GPT-4oに対して98%のASR、GPT-5に対して72%のASRに達した。
論文 参考訳(メタデータ) (2025-10-06T15:06:04Z) - Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs [28.75283403986172]
大規模言語モデル(LLM)は、プロンプトベースの攻撃に対して脆弱であり、有害なコンテンツや機密情報を生成する。
本稿では,5 つの攻撃ベンチマークにおいて,$mathbf14$ のオープンソース LLM に対する効果的なインジェクション攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-20T13:50:43Z) - CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。
LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。
提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文 参考訳(メタデータ) (2025-04-13T05:31:37Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Enhancing Prompt Injection Attacks to LLMs via Poisoning Alignment [35.344406718760574]
プロンプトインジェクション攻撃は、大規模言語モデルをインジェクションされたプロンプトに従ってアタッカー・チョーセンタスクを実行することを目的としている。
既存の攻撃は主にこれらのインジェクションを推論時に作成することに集中し、LSM自体を静的なターゲットとして扱う。
そこで本研究では,LSMのアライメントプロセスに毒を盛り,将来のインジェクション攻撃の成功を増幅する,より基本的な攻撃ベクトルを提案する。
論文 参考訳(メタデータ) (2024-10-18T18:52:16Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。