論文の概要: SPML: A DSL for Defending Language Models Against Prompt Attacks
- arxiv url: http://arxiv.org/abs/2402.11755v1
- Date: Mon, 19 Feb 2024 00:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:52:14.315889
- Title: SPML: A DSL for Defending Language Models Against Prompt Attacks
- Title(参考訳): SPML: プロンプト攻撃に対する言語モデルを守るためのDSL
- Authors: Reshabh K Sharma and Vinayak Gupta and Dan Grossman
- Abstract要約: System Prompt Meta Language (SPML)は、大規模言語モデル(LLM)へのインプットの精製と監視を行うドメイン固有言語である。
SPMLは攻撃プロンプトを積極的にチェックし、ユーザ入力と定義との整合性を確保し、LLMバックボーン上で悪意のある実行を防止し、コストを最適化する。
我々は、1.8kシステムプロンプトと20kユーザインプットを備えた画期的なベンチマークを導入し、チャットボット定義評価のための最初の言語とベンチマークを提供する。
- 参考スコア(独自算出の注目度): 4.511923587827302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have profoundly transformed natural language
applications, with a growing reliance on instruction-based definitions for
designing chatbots. However, post-deployment the chatbot definitions are fixed
and are vulnerable to attacks by malicious users, emphasizing the need to
prevent unethical applications and financial losses. Existing studies explore
user prompts' impact on LLM-based chatbots, yet practical methods to contain
attacks on application-specific chatbots remain unexplored. This paper presents
System Prompt Meta Language (SPML), a domain-specific language for refining
prompts and monitoring the inputs to the LLM-based chatbots. SPML actively
checks attack prompts, ensuring user inputs align with chatbot definitions to
prevent malicious execution on the LLM backbone, optimizing costs. It also
streamlines chatbot definition crafting with programming language capabilities,
overcoming natural language design challenges. Additionally, we introduce a
groundbreaking benchmark with 1.8k system prompts and 20k user inputs, offering
the inaugural language and benchmark for chatbot definition evaluation.
Experiments across datasets demonstrate SPML's proficiency in understanding
attacker prompts, surpassing models like GPT-4, GPT-3.5, and LLAMA. Our data
and codes are publicly available at: https://prompt-compiler.github.io/SPML/.
- Abstract(参考訳): 大規模言語モデル(llm)は自然言語アプリケーションを大きく変え、チャットボットを設計するための命令ベースの定義に依存しています。
しかし、デプロイ後のチャットボット定義は修正されており、悪意のあるユーザによる攻撃に対して脆弱であり、非倫理的なアプリケーションや金銭的損失を防ぐ必要性を強調している。
既存の研究では、LLMベースのチャットボットに対するユーザプロンプトの影響を探求しているが、アプリケーション固有のチャットボットに対する攻撃を封じ込めるための実践的手法は未解明のままである。
本稿では,システムプロンプトメタ言語(SPML, System Prompt Meta Language)について述べる。
SPMLは攻撃プロンプトを積極的にチェックし、ユーザ入力とチャットボットの定義を一致させ、LLMバックボーン上で悪意のある実行を防止し、コストを最適化する。
また、自然言語設計の課題を克服し、プログラミング言語機能を備えたチャットボット定義を合理化する。
さらに、1.8kシステムプロンプトと20kユーザ入力を備えた画期的なベンチマークを導入し、チャットボット定義評価のための最初の言語とベンチマークを提供する。
データセットにわたる実験では、攻撃者のプロンプトを理解するSPMLの習熟度が、GPT-4、GPT-3.5、LLAMAといったモデルを上回ることを示している。
私たちのデータとコードは、https://prompt-compiler.github.io/SPML/で公開されています。
関連論文リスト
- From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。
methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文 参考訳(メタデータ) (2024-05-08T04:14:06Z) - Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs [7.746160514029531]
ロボットのタスク計画問題に対処するLLMによる実験結果を示す。
提案手法はタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化する。
提案手法はマルチモーダル・プロンプト・シミュレーション・ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2024-03-20T17:58:12Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Comparing Generative Chatbots Based on Process Requirements [2.645089622684808]
生成ベースのチャットボットは、数十億のパラメータに基づいてトレーニングされ、会話インテリジェンスをサポートする。
本稿では,プロセス実行支援の文脈において,優れた生成モデルであるGPTとPaLMの性能を比較した。
論文 参考訳(メタデータ) (2023-11-28T18:25:22Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Leveraging Large Language Models to Power Chatbots for Collecting User
Self-Reported Data [15.808841433843742]
大きな言語モデル(LLM)は、自然言語のプロンプトを受け入れてチャットボットを構築する新しい方法を提供する。
我々は,チャットボットが自然に会話し,データを確実に収集する上で,プロンプトの設計要因について検討する。
論文 参考訳(メタデータ) (2023-01-14T07:29:36Z) - Ignore Previous Prompt: Attack Techniques For Language Models [0.0]
PromptInjectは,マスクに基づく対角的プロンプト合成のためのフレームワークである。
実運用において最も広くデプロイされている言語モデルであるGPT-3は、手書き入力で容易にミスアライメント可能であることを示す。
論文 参考訳(メタデータ) (2022-11-17T13:43:20Z) - Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。
以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。
本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文 参考訳(メタデータ) (2022-06-06T22:09:52Z) - Red Teaming Language Models with Language Models [8.237872606555383]
言語モデル(LM)は、予測が難しい方法でユーザを傷つける可能性があるため、デプロイできないことが多い。
以前の作業では、ヒューマンアノテータを使ってテストケースを手書きすることで、デプロイ前に有害な振る舞いを特定する。
本研究では、別のLMを用いてテストケース(「レッドチーム」)を生成することにより、標的のLMが有害な振る舞いをするケースを自動的に見つける。
論文 参考訳(メタデータ) (2022-02-07T15:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。