論文の概要: GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2409.19521v1
- Date: Sun, 29 Sep 2024 02:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 22:47:59.939049
- Title: GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks
- Title(参考訳): GenTel-Safe: プロンプトインジェクション攻撃に対する防御のための統一ベンチマークとシールドフレームワーク
- Authors: Rongchang Li, Minjie Chen, Chang Hu, Han Chen, Wenpeng Xing, Meng Han,
- Abstract要約: 我々は、GenTel-Shieldという新しいプロンプトインジェクション攻撃検出手法と総合評価ベンチマーク、GenTel-Benchを紹介する。
GenTel-Shieldの有効性を証明するため,GenTel-Benchデータセットに対するバニラ安全ガードレールと併用して評価を行った。
実証的に、GenTel-Shieldは最先端の攻撃検出成功率を達成することができる。
- 参考スコア(独自算出の注目度): 14.558728517191044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) like GPT-4, LLaMA, and Qwen have demonstrated remarkable success across a wide range of applications. However, these models remain inherently vulnerable to prompt injection attacks, which can bypass existing safety mechanisms, highlighting the urgent need for more robust attack detection methods and comprehensive evaluation benchmarks. To address these challenges, we introduce GenTel-Safe, a unified framework that includes a novel prompt injection attack detection method, GenTel-Shield, along with a comprehensive evaluation benchmark, GenTel-Bench, which compromises 84812 prompt injection attacks, spanning 3 major categories and 28 security scenarios. To prove the effectiveness of GenTel-Shield, we evaluate it together with vanilla safety guardrails against the GenTel-Bench dataset. Empirically, GenTel-Shield can achieve state-of-the-art attack detection success rates, which reveals the critical weakness of existing safeguarding techniques against harmful prompts. For reproducibility, we have made the code and benchmarking dataset available on the project page at https://gentellab.github.io/gentel-safe.github.io/.
- Abstract(参考訳): GPT-4、LLaMA、Qwenのような大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な成功を収めている。
しかしながら、これらのモデルは、既存の安全性メカニズムを回避し、より堅牢な攻撃検出方法と包括的な評価ベンチマークの緊急性の必要性を強調したインジェクション攻撃に対して本質的に脆弱なままである。
これらの課題に対処するために、新しいプロンプトインジェクション攻撃検出方法であるGenTel-Shieldと、包括的な評価ベンチマークであるGenTel-Benchを含む統合フレームワークであるGenTel-Safeを紹介した。
GenTel-Shieldの有効性を証明するため,GenTel-Benchデータセットに対するバニラ安全ガードレールと併用して評価を行った。
実証的に、GenTel-Shieldは最先端の攻撃検出成功率を達成することができ、有害なプロンプトに対する既存の保護技術の重要な弱点を明らかにする。
再現性のために、コードとベンチマークデータセットをプロジェクトページのhttps://gentellab.github.io/gentel-safe.github.io/で公開しました。
関連論文リスト
- The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models [7.186499635424984]
プロンプトインジェクション攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
プロンプトガードモデルは防御に有効であるが、単語バイアスの引き金として過防衛に苦しむ。
InjecGuardは、新しいトレーニング戦略であるMitigating Over-defense for Freeを取り入れた、新しいプロンプトガードモデルである。
論文 参考訳(メタデータ) (2024-10-30T07:39:42Z) - SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は 安全アライメントを回避し モデルに有害な反応をもたらすよう提案されている
自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。
本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文 参考訳(メタデータ) (2024-10-17T05:40:54Z) - SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [47.11178028457252]
我々はGenAIのリスクをコードする統合的かつ包括的な評価プラットフォームSecCodePLTを開発した。
安全でないコードには、専門家と自動生成を組み合わせたデータ生成のための新しい方法論を導入する。
サイバー攻撃支援のために、我々はモデルに実際の攻撃を引き起こすよう促すサンプルと、我々の環境における動的な指標を構築した。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。
本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。
本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文 参考訳(メタデータ) (2024-06-10T18:57:22Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。