論文の概要: Embedding-based classifiers can detect prompt injection attacks
- arxiv url: http://arxiv.org/abs/2410.22284v1
- Date: Tue, 29 Oct 2024 17:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:09.581116
- Title: Embedding-based classifiers can detect prompt injection attacks
- Title(参考訳): 埋め込み型分類器はインプット・インジェクション・アタックを検出できる
- Authors: Md. Ahsan Ayub, Subhabrata Majumdar,
- Abstract要約: 大規模言語モデル(LLM)は敵の攻撃、特にインジェクション攻撃に対して脆弱である。
本稿では,組込み型機械学習(ML)分類器をベースとした新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.820776057182452
- License:
- Abstract: Large Language Models (LLMs) are seeing significant adoption in every type of organization due to their exceptional generative capabilities. However, LLMs are found to be vulnerable to various adversarial attacks, particularly prompt injection attacks, which trick them into producing harmful or inappropriate content. Adversaries execute such attacks by crafting malicious prompts to deceive the LLMs. In this paper, we propose a novel approach based on embedding-based Machine Learning (ML) classifiers to protect LLM-based applications against this severe threat. We leverage three commonly used embedding models to generate embeddings of malicious and benign prompts and utilize ML classifiers to predict whether an input prompt is malicious. Out of several traditional ML methods, we achieve the best performance with classifiers built using Random Forest and XGBoost. Our classifiers outperform state-of-the-art prompt injection classifiers available in open-source implementations, which use encoder-only neural networks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その例外的な生成能力のために、あらゆるタイプの組織で顕著に採用されています。
しかし、LSMは様々な敵攻撃、特にインジェクション攻撃に弱いことが判明し、有害または不適切なコンテンツを生み出すのを邪魔する。
敵はLSMを騙す悪意のあるプロンプトを作れば攻撃を実行する。
本稿では,組込み型機械学習(ML)分類器をベースとした新しい手法を提案する。
一般的に使用されている3つの埋め込みモデルを用いて、悪意のあるプロンプトと良性のあるプロンプトの埋め込みを生成し、ML分類器を使用して入力プロンプトが悪意のあるかどうかを予測する。
従来のML手法のうち,Random Forest と XGBoost を用いて構築した分類器で最高の性能を実現する。
我々の分類器は、エンコーダのみのニューラルネットワークを使用するオープンソース実装で利用できる最先端のプロンプトインジェクション分類器より優れている。
関連論文リスト
- Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs [8.449922248196705]
我々は,アライメントトレーニング保護を貫くために,ユーザから供給されるプロンプトを介して,微妙ながら効果的な毒殺攻撃を行う。
我々の攻撃は、ブラックボックス設定における目標LLMの明示的な知識がなくても、報酬フィードバック機構を微妙に変更する。
これらの特殊なプロンプトの1%をデータに注入することにより、悪意のあるユーザを通して、特定のトリガーワードを使用する場合の毒性スコアを最大2倍に向上させる。
論文 参考訳(メタデータ) (2024-09-01T17:40:04Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。