論文の概要: SoK: Prompt Hacking of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13901v1
- Date: Wed, 16 Oct 2024 01:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:15.953601
- Title: SoK: Prompt Hacking of Large Language Models
- Title(参考訳): SoK: 大規模言語モデルのプロンプトハック
- Authors: Baha Rababah, Shang, Wu, Matthew Kwiatkowski, Carson Leung, Cuneyt Gurcan Akcora,
- Abstract要約: 大規模言語モデル(LLM)ベースのアプリケーションの安全性と堅牢性は、人工知能において重要な課題である。
私たちは、ジェイルブレイク、リーク、インジェクションという3つの異なるタイプのプロンプトハッキングについて、包括的で体系的な概要を提供しています。
LLM応答を5つの異なるクラスに分類する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.056128048855064
- License:
- Abstract: The safety and robustness of large language models (LLMs) based applications remain critical challenges in artificial intelligence. Among the key threats to these applications are prompt hacking attacks, which can significantly undermine the security and reliability of LLM-based systems. In this work, we offer a comprehensive and systematic overview of three distinct types of prompt hacking: jailbreaking, leaking, and injection, addressing the nuances that differentiate them despite their overlapping characteristics. To enhance the evaluation of LLM-based applications, we propose a novel framework that categorizes LLM responses into five distinct classes, moving beyond the traditional binary classification. This approach provides more granular insights into the AI's behavior, improving diagnostic precision and enabling more targeted enhancements to the system's safety and robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのアプリケーションの安全性と堅牢性は、人工知能において重要な課題である。
これらのアプリケーションにとって重要な脅威は、即時ハッキング攻撃であり、LLMベースのシステムのセキュリティと信頼性を著しく損なう可能性がある。
本研究では,ジェイルブレイク,リーク,インジェクションという,3つの異なるタイプのプロンプトハッキングの総合的かつ体系的な概要を提供する。
LLMの応答を5つの異なるクラスに分類するフレームワークを提案する。
このアプローチは、AIの振る舞いに関するより詳細な洞察を提供し、診断精度を改善し、システムの安全性と堅牢性に対するよりターゲットを絞った拡張を可能にする。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - Robustness of Large Language Models Against Adversarial Attacks [5.312946761836463]
GPT LLMファミリーのロバスト性に関する総合的研究を報告する。
我々は2つの異なる評価手法を用いてレジリエンスを評価する。
実験により,これらのモデルのロバスト性は著しく変化し,文字レベルと意味レベルの両方の敵攻撃に対する脆弱性の程度が変化することが示された。
論文 参考訳(メタデータ) (2024-12-22T13:21:15Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。
本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文 参考訳(メタデータ) (2024-07-25T05:42:14Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。