論文の概要: OET: Optimization-based prompt injection Evaluation Toolkit
- arxiv url: http://arxiv.org/abs/2505.00843v1
- Date: Thu, 01 May 2025 20:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.824481
- Title: OET: Optimization-based prompt injection Evaluation Toolkit
- Title(参考訳): OET:最適化に基づくプロンプトインジェクション評価ツールキット
- Authors: Jinsheng Pan, Xiaogeng Liu, Chaowei Xiao,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
インジェクション攻撃に対する感受性は、重大なセキュリティリスクを生じさせる。
多くの防衛戦略にもかかわらず、その効果を厳格に評価する標準化された枠組みが欠如している。
- 参考スコア(独自算出の注目度): 25.148709805243836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language understanding and generation, enabling their widespread adoption across various domains. However, their susceptibility to prompt injection attacks poses significant security risks, as adversarial inputs can manipulate model behavior and override intended instructions. Despite numerous defense strategies, a standardized framework to rigorously evaluate their effectiveness, especially under adaptive adversarial scenarios, is lacking. To address this gap, we introduce OET, an optimization-based evaluation toolkit that systematically benchmarks prompt injection attacks and defenses across diverse datasets using an adaptive testing framework. Our toolkit features a modular workflow that facilitates adversarial string generation, dynamic attack execution, and comprehensive result analysis, offering a unified platform for assessing adversarial robustness. Crucially, the adaptive testing framework leverages optimization methods with both white-box and black-box access to generate worst-case adversarial examples, thereby enabling strict red-teaming evaluations. Extensive experiments underscore the limitations of current defense mechanisms, with some models remaining susceptible even after implementing security enhancements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示し、様々な領域で広く採用されている。
しかし、それらのインジェクション攻撃に対する感受性は、敵の入力がモデル動作を操作し、意図した命令をオーバーライドできるため、重大なセキュリティリスクを引き起こす。
多くの防衛戦略にもかかわらず、その効果を厳格に評価する標準化された枠組み、特に適応的な敵のシナリオでは、欠落している。
このギャップに対処するため、我々は最適化ベースの評価ツールキットであるOETを紹介した。これは、適応テストフレームワークを使用して、多様なデータセットにわたるインジェクション攻撃と防御をシステマティックにベンチマークする。
本ツールキットは,対向文字列生成,動的攻撃実行,総合的な結果解析を容易にするモジュール型ワークフローを備え,対向ロバスト性を評価するための統一プラットフォームを提供する。
重要な点として、適応テストフレームワークは、ホワイトボックスとブラックボックスアクセスの両方で最適化手法を活用し、最悪の逆例を生成することにより、厳密なリピート評価を可能にする。
大規模な実験は、現在の防衛機構の限界を浮き彫りにしており、いくつかのモデルは、セキュリティ強化の実装後も影響を受けやすいままである。
関連論文リスト
- AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - MIBench: A Comprehensive Framework for Benchmarking Model Inversion Attack and Defense [42.56467639172508]
Model Inversion (MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシに敏感なトレーニングデータを再構築することを目的としている。
我々は、モデル反転攻撃と防御の体系的評価のためのMIBenchという最初の実用的なベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-07T16:13:49Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z) - Robust Feature Inference: A Test-time Defense Strategy using Spectral Projections [12.807619042576018]
我々はロバスト特徴推論(RFI)と呼ばれる新しいテスト時間防衛戦略を提案する。
RFIは、追加のテスト時間計算なしで既存の(ロバストな)トレーニング手順と簡単に統合できる。
RFIは、適応攻撃や転送攻撃によるロバスト性を継続的に改善することを示す。
論文 参考訳(メタデータ) (2023-07-21T16:18:58Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Indicators of Attack Failure: Debugging and Improving Optimization of
Adversarial Examples [29.385242714424624]
機械学習モデルの頑健さを敵の例に評価することは難しい問題である。
我々は、勾配に基づく攻撃の最適化において共通の障害を明らかにするための定量的指標のセットを定義する。
実験により,現在の対向ロバスト性評価を可視化し,デバッグし,改善するために,提案した障害指標が有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T06:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。