論文の概要: Knowledge Return Oriented Prompting (KROP)
- arxiv url: http://arxiv.org/abs/2406.11880v1
- Date: Tue, 11 Jun 2024 23:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-23 13:24:48.395889
- Title: Knowledge Return Oriented Prompting (KROP)
- Title(参考訳): KROP(Knowledge Return Oriented Prompting)
- Authors: Jason Martin, Kenneth Yeung,
- Abstract要約: KROPは、プロンプトインジェクション攻撃を回避できるプロンプトインジェクション技術である。
本報告では, インジェクション攻撃を防止できるプロンプトインジェクション技術であるKROPを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many Large Language Models (LLMs) and LLM-powered apps deployed today use some form of prompt filter or alignment to protect their integrity. However, these measures aren't foolproof. This paper introduces KROP, a prompt injection technique capable of obfuscating prompt injection attacks, rendering them virtually undetectable to most of these security measures.
- Abstract(参考訳): 多くのLarge Language Models (LLMs) と LLM ベースのアプリが現在デプロイされており、ある種のプロンプトフィルタやアライメントを使用して、それらの整合性を保護する。
しかし、これらの措置はばかげたものではない。
KROPは即発注入攻撃を回避し,これらの安全対策のほとんどにおいて事実上検出不可能な手法である。
関連論文リスト
- Embedding-based classifiers can detect prompt injection attacks [5.820776057182452]
大規模言語モデル(LLM)は敵の攻撃、特にインジェクション攻撃に対して脆弱である。
本稿では,組込み型機械学習(ML)分類器をベースとした新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T17:36:59Z) - FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks [45.65210717380502]
大規模言語モデル(LLM)は、現実世界のアプリケーションのための追加ツールとテキスト情報を備えたバックボーンとして広くデプロイされている。
プロンプトインジェクション攻撃は特に脅威であり、外部のテキスト情報に悪意のあるインストラクションを注入することで、LLMを利用して攻撃者が望む答えを生成することができる。
本稿では,AuThentication with Hash-based tags (FATH)という新しいテストタイム防衛戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-28T20:02:47Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。