Fugu-MT 論文翻訳(概要): CAPTURE: Context-Aware Prompt Injection Testing and Robustness Enhancement

論文の概要: CAPTURE: Context-Aware Prompt Injection Testing and Robustness Enhancement

arxiv url: http://arxiv.org/abs/2505.12368v2
Date: Tue, 17 Jun 2025 05:38:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 15:22:20.620892
Title: CAPTURE: Context-Aware Prompt Injection Testing and Robustness Enhancement
Title（参考訳）: CAPTURE: コンテキスト対応プロンプトインジェクションテストとロバストネス向上
Authors: Gauri Kholkar, Ratinder Ahuja,
Abstract要約: 攻撃検出と過防衛傾向の両方を評価する新しい文脈認識型ベンチマークであるCAPTUREを紹介する。実験の結果,現行のプロンプトインジェクションガードレールモデルでは,敵のケースでは高い偽陰性,良性シナリオでは過剰な偽陽性に悩まされていることが明らかとなった。この新しいモデルでは、コンテキスト認識データセットの偽陰性率と偽陽性率の両方を劇的に削減します。
参考スコア（独自算出の注目度）: 0.34530027457862006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt injection remains a major security risk for large language models. However, the efficacy of existing guardrail models in context-aware settings remains underexplored, as they often rely on static attack benchmarks. Additionally, they have over-defense tendencies. We introduce CAPTURE, a novel context-aware benchmark assessing both attack detection and over-defense tendencies with minimal in-domain examples. Our experiments reveal that current prompt injection guardrail models suffer from high false negatives in adversarial cases and excessive false positives in benign scenarios, highlighting critical limitations. To demonstrate our framework's utility, we train CaptureGuard on our generated data. This new model drastically reduces both false negative and false positive rates on our context-aware datasets while also generalizing effectively to external benchmarks, establishing a path toward more robust and practical prompt injection defenses.
Abstract（参考訳）: プロンプトインジェクションは、大きな言語モデルにとって大きなセキュリティリスクである。しかし、既存のガードレールモデルの有効性は、静的攻撃ベンチマークに依存することが多いため、まだ探索されていない。さらに、彼らは過防衛の傾向があります。本稿では,ドメイン内の最小限の例で,攻撃検出と過剰防御傾向の両方を評価する新しい文脈認識ベンチマークであるCAPTUREを紹介する。実験の結果,現行のプロンプトインジェクションガードレールモデルでは,敵のケースでは高い偽陰性,良性シナリオでは過度の偽陽性がみられ,限界が強調されている。フレームワークの有用性を示すために、生成したデータに対してCaptureGuardをトレーニングします。この新モデルは、文脈認識データセットにおける偽陰性と偽陽性率の両方を劇的に削減するとともに、外部ベンチマークに効果的に一般化し、より堅牢で実用的なインジェクション防御への道を確立します。

関連論文リスト

Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。 OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文参考訳（メタデータ） (2025-06-03T01:37:09Z)
OET: Optimization-based prompt injection Evaluation Toolkit [25.148709805243836]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。インジェクション攻撃に対する感受性は、重大なセキュリティリスクを生じさせる。多くの防衛戦略にもかかわらず、その効果を厳格に評価する標準化された枠組みが欠如している。
論文参考訳（メタデータ） (2025-05-01T20:09:48Z)
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。 R-TPTは、推論段階における敵攻撃の影響を緩和する。プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文参考訳（メタデータ） (2025-04-15T13:49:31Z)
SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は安全アライメントを回避しモデルに有害な反応をもたらすよう提案されている自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文参考訳（メタデータ） (2024-10-17T05:40:54Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Constrained Adaptive Attacks: Realistic Evaluation of Adversarial Examples and Robust Training of Deep Neural Networks for Tabular Data [19.579837693614326]
本稿では,制約付きディープラーニングモデルに対する最初の効率的な回避攻撃であるCAAを提案する。 CAAを活用して、クレジットスコア、フィッシング、ボットネット攻撃検出という3つの一般的なユースケースにわたる、ディープタブモデルのベンチマークを構築します。
論文参考訳（メタデータ） (2023-11-08T07:35:28Z)
Robust Safety Classifier for Large Language Models: Adversarial Prompt Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文参考訳（メタデータ） (2023-10-31T22:22:10Z)
DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文参考訳（メタデータ） (2023-03-20T17:25:22Z)
Improving Adversarial Robustness to Sensitivity and Invariance Attacks with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文参考訳（メタデータ） (2022-11-04T13:54:02Z)
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (2022-06-17T02:29:23Z)
"That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks [0.2999888908665659]
敵攻撃は、現在の機械学習研究で直面する大きな課題である。本研究は, 逆文例のモデルに依存しない検出法を提案する。
論文参考訳（メタデータ） (2022-04-10T09:24:41Z)
Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文参考訳（メタデータ） (2021-08-25T10:41:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。