論文の概要: PIArena: A Platform for Prompt Injection Evaluation
- arxiv url: http://arxiv.org/abs/2604.08499v1
- Date: Thu, 09 Apr 2026 17:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.051514
- Title: PIArena: A Platform for Prompt Injection Evaluation
- Title(参考訳): PIArena: プロンプト注入評価プラットフォーム
- Authors: Runpeng Geng, Chenlong Yin, Yanting Wang, Ying Chen, Jinyuan Jia,
- Abstract要約: プロンプトインジェクション攻撃は、様々な現実世界のアプリケーションに深刻なセキュリティリスクをもたらす。
コミュニティは重要なギャップに直面している。インジェクションを迅速に評価するための統一されたプラットフォームが欠如している。
PIArenaを使うことで、ユーザは最先端の攻撃と防御を簡単に統合し、さまざまな既存および新しいベンチマークでそれらを評価できる。
- 参考スコア(独自算出の注目度): 21.281542161531934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection attacks pose serious security risks across a wide range of real-world applications. While receiving increasing attention, the community faces a critical gap: the lack of a unified platform for prompt injection evaluation. This makes it challenging to reliably compare defenses, understand their true robustness under diverse attacks, or assess how well they generalize across tasks and benchmarks. For instance, many defenses initially reported as effective were later found to exhibit limited robustness on diverse datasets and attacks. To bridge this gap, we introduce PIArena, a unified and extensible platform for prompt injection evaluation that enables users to easily integrate state-of-the-art attacks and defenses and evaluate them across a variety of existing and new benchmarks. We also design a dynamic strategy-based attack that adaptively optimizes injected prompts based on defense feedback. Through comprehensive evaluation using PIArena, we uncover critical limitations of state-of-the-art defenses: limited generalizability across tasks, vulnerability to adaptive attacks, and fundamental challenges when an injected task aligns with the target task. The code and datasets are available at https://github.com/sleeepeer/PIArena.
- Abstract(参考訳): プロンプトインジェクション攻撃は、様々な現実世界のアプリケーションに深刻なセキュリティリスクをもたらす。
注目を集めている一方で、コミュニティは重要なギャップに直面している。
これにより、防御を確実に比較したり、多様な攻撃の下で真の堅牢性を理解したり、タスクやベンチマークをまたいでどのように一般化するかを評価することは困難になります。
例えば、当初は有効であると報告された多くの防衛は、後に様々なデータセットや攻撃に対して限られた堅牢性を示すことが判明した。
このギャップを埋めるため,ユーザによる最新の攻撃と防御を簡単に統合し,さまざまな既存および新しいベンチマークで評価可能な,統合的で拡張性の高いインジェクション評価プラットフォームであるPIArenaを導入する。
また,防衛フィードバックに基づいてインジェクションプロンプトを適応的に最適化する動的戦略ベースの攻撃も設計する。
PIArenaを用いた包括的評価により、タスク間の一般化可能性の制限、アダプティブアタックに対する脆弱性、およびインジェクトされたタスクが目標タスクと整合する際の根本的な課題など、最先端の防衛の限界を明らかにする。
コードとデータセットはhttps://github.com/sleeepeer/PIArenaで公開されている。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - OET: Optimization-based prompt injection Evaluation Toolkit [25.148709805243836]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
インジェクション攻撃に対する感受性は、重大なセキュリティリスクを生じさせる。
多くの防衛戦略にもかかわらず、その効果を厳格に評価する標準化された枠組みが欠如している。
論文 参考訳(メタデータ) (2025-05-01T20:09:48Z) - Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents [3.5248694676821484]
我々は8つの異なる防御効果を評価し、それら全てを適応攻撃を用いてバイパスし、連続して50%以上の攻撃成功率を達成する。
本研究は,ロバスト性と信頼性を確保するために,防御設計における適応攻撃評価の必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-27T04:04:50Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。