論文の概要: SPML: A DSL for Defending Language Models Against Prompt Attacks
- arxiv url: http://arxiv.org/abs/2402.11755v1
- Date: Mon, 19 Feb 2024 00:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:52:14.315889
- Title: SPML: A DSL for Defending Language Models Against Prompt Attacks
- Title(参考訳): SPML: プロンプト攻撃に対する言語モデルを守るためのDSL
- Authors: Reshabh K Sharma and Vinayak Gupta and Dan Grossman
- Abstract要約: System Prompt Meta Language (SPML)は、大規模言語モデル(LLM)へのインプットの精製と監視を行うドメイン固有言語である。
SPMLは攻撃プロンプトを積極的にチェックし、ユーザ入力と定義との整合性を確保し、LLMバックボーン上で悪意のある実行を防止し、コストを最適化する。
我々は、1.8kシステムプロンプトと20kユーザインプットを備えた画期的なベンチマークを導入し、チャットボット定義評価のための最初の言語とベンチマークを提供する。
- 参考スコア(独自算出の注目度): 4.511923587827302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have profoundly transformed natural language
applications, with a growing reliance on instruction-based definitions for
designing chatbots. However, post-deployment the chatbot definitions are fixed
and are vulnerable to attacks by malicious users, emphasizing the need to
prevent unethical applications and financial losses. Existing studies explore
user prompts' impact on LLM-based chatbots, yet practical methods to contain
attacks on application-specific chatbots remain unexplored. This paper presents
System Prompt Meta Language (SPML), a domain-specific language for refining
prompts and monitoring the inputs to the LLM-based chatbots. SPML actively
checks attack prompts, ensuring user inputs align with chatbot definitions to
prevent malicious execution on the LLM backbone, optimizing costs. It also
streamlines chatbot definition crafting with programming language capabilities,
overcoming natural language design challenges. Additionally, we introduce a
groundbreaking benchmark with 1.8k system prompts and 20k user inputs, offering
the inaugural language and benchmark for chatbot definition evaluation.
Experiments across datasets demonstrate SPML's proficiency in understanding
attacker prompts, surpassing models like GPT-4, GPT-3.5, and LLAMA. Our data
and codes are publicly available at: https://prompt-compiler.github.io/SPML/.
- Abstract(参考訳): 大規模言語モデル(llm)は自然言語アプリケーションを大きく変え、チャットボットを設計するための命令ベースの定義に依存しています。
しかし、デプロイ後のチャットボット定義は修正されており、悪意のあるユーザによる攻撃に対して脆弱であり、非倫理的なアプリケーションや金銭的損失を防ぐ必要性を強調している。
既存の研究では、LLMベースのチャットボットに対するユーザプロンプトの影響を探求しているが、アプリケーション固有のチャットボットに対する攻撃を封じ込めるための実践的手法は未解明のままである。
本稿では,システムプロンプトメタ言語(SPML, System Prompt Meta Language)について述べる。
SPMLは攻撃プロンプトを積極的にチェックし、ユーザ入力とチャットボットの定義を一致させ、LLMバックボーン上で悪意のある実行を防止し、コストを最適化する。
また、自然言語設計の課題を克服し、プログラミング言語機能を備えたチャットボット定義を合理化する。
さらに、1.8kシステムプロンプトと20kユーザ入力を備えた画期的なベンチマークを導入し、チャットボット定義評価のための最初の言語とベンチマークを提供する。
データセットにわたる実験では、攻撃者のプロンプトを理解するSPMLの習熟度が、GPT-4、GPT-3.5、LLAMAといったモデルを上回ることを示している。
私たちのデータとコードは、https://prompt-compiler.github.io/SPML/で公開されています。
関連論文リスト
- Prompt Engineering a Schizophrenia Chatbot: Utilizing a Multi-Agent Approach for Enhanced Compliance with Prompt Instructions [0.0699049312989311]
統合失調症の患者は、しばしば認知障害を伴い、自分の状態について学ぶ能力を妨げることがある。
大規模言語モデル(LLM)は、トピックのメンタルヘルス情報をよりアクセシビリティとエンゲージメントを高める可能性を秘めているが、それらのブラックボックスの性質は倫理と安全に関する懸念を喚起する。
論文 参考訳(メタデータ) (2024-10-10T09:49:24Z) - A test suite of prompt injection attacks for LLM-based machine translation [4.459306403129608]
LLMベースのNLPシステムは典型的には、インプットデータをインプロンプトテンプレートに埋め込むことで動作する。
最近、Sun と Miceli-Barone は LLM ベースの機械翻訳に対して PIA のクラスを提案した。
我々は、WMT 2024の汎用機械翻訳タスクの全ての言語対にこのアプローチを拡張した。
論文 参考訳(メタデータ) (2024-10-07T14:01:20Z) - A Reliable Common-Sense Reasoning Socialbot Built Using LLMs and Goal-Directed ASP [3.17686396799427]
自然言語を述語に翻訳するためにLLMモデルを用いたソーシャルボットであるAutoCompanionを提案する。
本稿では, LLM を用いてユーザメッセージを解析し, s(CASP) エンジン出力から応答を生成する手法について述べる。
論文 参考訳(メタデータ) (2024-07-26T04:13:43Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots [19.423566424346166]
本研究では,Large Language Model (LLM) ベースのチャットボットを用いて推薦システムを構築する。
チャットボットが不特定要求に遭うと、応答が悪くなるのを観察する。
我々は,このような誤った応答傾向は,アノテータを用いたLPM微調整に起因していると推測する。
論文 参考訳(メタデータ) (2024-06-01T15:54:45Z) - Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。
以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。
本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文 参考訳(メタデータ) (2022-06-06T22:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。