論文の概要: Prompt Inject Detection with Generative Explanation as an Investigative Tool
- arxiv url: http://arxiv.org/abs/2502.11006v1
- Date: Sun, 16 Feb 2025 06:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:31.451523
- Title: Prompt Inject Detection with Generative Explanation as an Investigative Tool
- Title(参考訳): 生成的説明を用いたプロンプト注入検出を探索ツールとして用いた。
- Authors: Jonathan Pan, Swee Liang Wong, Yidi Yuan, Xin Wei Chia,
- Abstract要約: 大規模言語モデル(LLM)は、敵のプロンプトベースのインジェクションに対して脆弱である。
本研究では, LLMのテキスト生成機能を用いて, インジェクションの検出を行う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) are vulnerable to adversarial prompt based injects. These injects could jailbreak or exploit vulnerabilities within these models with explicit prompt requests leading to undesired responses. In the context of investigating prompt injects, the challenge is the sheer volume of input prompts involved that are likely to be largely benign. This investigative challenge is further complicated by the semantics and subjectivity of the input prompts involved in the LLM conversation with its user and the context of the environment to which the conversation is being carried out. Hence, the challenge for AI security investigators would be two-fold. The first is to identify adversarial prompt injects and then to assess whether the input prompt is contextually benign or adversarial. For the first step, this could be done using existing AI security solutions like guardrails to detect and protect the LLMs. Guardrails have been developed using a variety of approaches. A popular approach is to use signature based. Another popular approach to develop AI models to classify such prompts include the use of NLP based models like a language model. However, in the context of conducting an AI security investigation of prompt injects, these guardrails lack the ability to aid investigators in triaging or assessing the identified input prompts. In this applied research exploration, we explore the use of a text generation capabilities of LLM to detect prompt injects and generate explanation for its detections to aid AI security investigators in assessing and triaging of such prompt inject detections. The practical benefit of such a tool is to ease the task of conducting investigation into prompt injects.
- Abstract(参考訳): 大規模言語モデル(LLM)は、敵のプロンプトベースのインジェクションに対して脆弱である。
これらのインジェクションは、好ましくない応答につながる明示的なプロンプトリクエストによって、これらのモデル内の脆弱性をジェイルブレイクまたは悪用する可能性がある。
インプットインジェクションを調査する文脈において、課題は、主に良性である可能性が高いインプットインプットインプットインジェクションの量である。
この調査課題は、ユーザとのLLM会話に関わる入力プロンプトの意味と主観性、および会話が行われている環境のコンテキストによってさらに複雑である。
したがって、AIセキュリティ調査員にとっての課題は2つになる。
1つ目は、敵対的プロンプトの注入を識別し、入力プロンプトが文脈的に良性であるか逆性であるかを評価することである。
最初のステップでは、ガードレールのような既存のAIセキュリティソリューションを使用して、LLMを検出して保護することが可能になる。
ガードレールは様々なアプローチで開発されている。
一般的なアプローチはシグネチャベースを使用することだ。
このようなプロンプトを分類するためのAIモデルを開発する他の一般的なアプローチには、言語モデルのようなNLPベースのモデルの使用がある。
しかしながら、AIによるプロンプト注入のセキュリティ調査を行う文脈では、これらのガードレールは、特定されたインプットプロンプトのトリアージや評価において、調査者を支援する能力が欠如している。
本研究では, LLMのテキスト生成機能を用いて, インジェクションの検出と検出の説明を行い, インジェクション検出の評価とトリアージを行うAIセキュリティ研究者を支援する。
このようなツールの実用的メリットは、迅速な注射の実施作業を容易にすることである。
関連論文リスト
- Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Investigating the Influence of Prompt-Specific Shortcuts in AI Generated Text Detection [23.794925542322098]
我々はAIGT検出におけるプロンプト特異的ショートカットの影響を分析する。
フィードバックに基づく逆命令リスト最適化(FAILOpt)を提案する。
FAILOptは、敵対的なインコンテキストの例に基づく他の攻撃に匹敵するターゲット検出器の検出性能を効果的に低下させる。
論文 参考訳(メタデータ) (2024-06-24T02:50:09Z) - An Early Categorization of Prompt Injection Attacks on Large Language
Models [0.8875650122536799]
大規模な言語モデルとAIチャットボットは、人工知能の民主化の最前線にある。
われわれは、ユーザーが新しいインジェクションと呼ばれる攻撃でモデルを誤用しようとする猫とマウスのゲームを目撃している。
本稿では、これらの突発的脅威の概要と、即発注射の分類について述べる。
論文 参考訳(メタデータ) (2024-01-31T19:52:00Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - How Reliable Are AI-Generated-Text Detectors? An Assessment Framework
Using Evasive Soft Prompts [14.175243473740727]
本研究では,PLMに高い性能の検出器を回避できるテキストを生成する新しい手法を提案する。
提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するのにPLMを導く。
我々は,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-08T09:53:46Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - "That Is a Suspicious Reaction!": Interpreting Logits Variation to
Detect NLP Adversarial Attacks [0.2999888908665659]
敵攻撃は、現在の機械学習研究で直面する大きな課題である。
本研究は, 逆文例のモデルに依存しない検出法を提案する。
論文 参考訳(メタデータ) (2022-04-10T09:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。