論文の概要: A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.00991v1
- Date: Tue, 2 Jan 2024 02:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 12:57:08.113603
- Title: A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるプロンプトインジェクション攻撃に対する抵抗性評価のための新しい評価フレームワーク
- Authors: Daniel Wankit Yip, Aysan Esmradi, Chun Fai Chan,
- Abstract要約: 本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompt injection attacks exploit vulnerabilities in large language models (LLMs) to manipulate the model into unintended actions or generate malicious content. As LLM integrated applications gain wider adoption, they face growing susceptibility to such attacks. This study introduces a novel evaluation framework for quantifying the resilience of applications. The framework incorporates innovative techniques designed to ensure representativeness, interpretability, and robustness. To ensure the representativeness of simulated attacks on the application, a meticulous selection process was employed, resulting in 115 carefully chosen attacks based on coverage and relevance. For enhanced interpretability, a second LLM was utilized to evaluate the responses generated from these simulated attacks. Unlike conventional malicious content classifiers that provide only a confidence score, the LLM-based evaluation produces a score accompanied by an explanation, thereby enhancing interpretability. Subsequently, a resilience score is computed by assigning higher weights to attacks with greater impact, thus providing a robust measurement of the application resilience. To assess the framework's efficacy, it was applied on two LLMs, namely Llama2 and ChatGLM. Results revealed that Llama2, the newer model exhibited higher resilience compared to ChatGLM. This finding substantiates the effectiveness of the framework, aligning with the prevailing notion that newer models tend to possess greater resilience. Moreover, the framework exhibited exceptional versatility, requiring only minimal adjustments to accommodate emerging attack techniques and classifications, thereby establishing itself as an effective and practical solution. Overall, the framework offers valuable insights that empower organizations to make well-informed decisions to fortify their applications against potential threats from prompt injection.
- Abstract(参考訳): プロンプトインジェクションは、意図しないアクションにモデルを操作したり、悪意のあるコンテンツを生成するために、大きな言語モデル(LLM)の脆弱性を利用する。
LLM統合アプリケーションが広く採用されるにつれて、このような攻撃に対する感受性が高まる。
本研究では,アプリケーションのレジリエンスを定量化する新しい評価フレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
アプリケーションに対するシミュレートされた攻撃の表現性を確保するため、厳密な選択プロセスが採用され、115の攻撃がカバレッジと関連性に基づいて慎重に選択された。
解析可能性を高めるために、これらのシミュレートされた攻撃から発生する応答を評価するために、第2のLSMを使用した。
信頼スコアのみを提供する従来の悪意のあるコンテンツ分類器とは異なり、LCMに基づく評価は説明を伴うスコアを生成し、解釈可能性を向上させる。
その後、より高い重みをより大きなインパクトで攻撃に割り当てることでレジリエンススコアが計算され、アプリケーションのレジリエンスを堅牢に測定する。
フレームワークの有効性を評価するために、Llama2とChatGLMという2つのLLMに適用された。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
この発見は、新しいモデルがより大きなレジリエンスを持つ傾向にあるという一般的な考え方と一致して、フレームワークの有効性を裏付けるものである。
さらに、この枠組みは、新たな攻撃技術や分類に対応するため、最小限の調整しか必要とせず、効果的で実用的な解決法として確立された。
全体として、このフレームワークは、組織に対して、迅速なインジェクションによる潜在的な脅威に対して、アプリケーションを強化するための、十分なインフォームド決定を可能にする貴重な洞察を提供する。
関連論文リスト
- Adversarial Attacks and Defense for Conversation Entailment Task [0.49157446832511503]
大規模言語モデルは、低コストの敵攻撃に対して脆弱である。
我々は、仮説の真偽を正確に識別するために、変圧器モデルを微調整する。
モデルのロバスト性を高めるために,埋め込み摂動損失法を導入する。
論文 参考訳(メタデータ) (2024-05-01T02:49:18Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models [112.46733790998024]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Model Stealing Attack against Graph Classification with Authenticity,
Uncertainty and Diversity [85.1927483219819]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Unveiling Safety Vulnerabilities of Large Language Models [4.562678399685183]
本稿では,AttaQと呼ばれる質問の形で,敵対的な事例を含むユニークなデータセットを提案する。
各種モデルの脆弱性を解析することにより,データセットの有効性を評価する。
脆弱なセマンティック領域を特定し命名するための新しい自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-07T16:50:33Z) - Group-based Robustness: A General Framework for Customized Robustness in
the Real World [16.376584375681812]
対象とするロバスト度を計測する従来の指標は、あるソースクラスから別のターゲットクラスへの攻撃に耐えるモデルの能力を適切に反映していないことが分かりました。
我々は、既存のメトリクスを補完し、特定の攻撃シナリオにおけるモデル性能を評価するのに適した新しい指標であるグループベースロバストネスを提案する。
同様の成功率で、新たな損失関数を用いた回避サンプルの発見は、対象とするクラスの数に匹敵する程度に削減できることが示される。
論文 参考訳(メタデータ) (2023-06-29T01:07:12Z) - A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference [4.478182379059458]
FidesはML-as-a-Service(ML)推論のリアルタイム整合性検証のための新しいフレームワークである。
Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。
攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。
論文 参考訳(メタデータ) (2023-03-31T19:17:30Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。