Fugu-MT 論文翻訳(概要): SPML: A DSL for Defending Language Models Against Prompt Attacks

論文の概要: SPML: A DSL for Defending Language Models Against Prompt Attacks

arxiv url: http://arxiv.org/abs/2402.11755v1
Date: Mon, 19 Feb 2024 00:53:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 18:52:14.315889
Title: SPML: A DSL for Defending Language Models Against Prompt Attacks
Title（参考訳）: SPML: プロンプト攻撃に対する言語モデルを守るためのDSL
Authors: Reshabh K Sharma and Vinayak Gupta and Dan Grossman
Abstract要約: System Prompt Meta Language (SPML)は、大規模言語モデル(LLM)へのインプットの精製と監視を行うドメイン固有言語である。 SPMLは攻撃プロンプトを積極的にチェックし、ユーザ入力と定義との整合性を確保し、LLMバックボーン上で悪意のある実行を防止し、コストを最適化する。我々は、1.8kシステムプロンプトと20kユーザインプットを備えた画期的なベンチマークを導入し、チャットボット定義評価のための最初の言語とベンチマークを提供する。
参考スコア（独自算出の注目度）: 4.511923587827302
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have profoundly transformed natural language applications, with a growing reliance on instruction-based definitions for designing chatbots. However, post-deployment the chatbot definitions are fixed and are vulnerable to attacks by malicious users, emphasizing the need to prevent unethical applications and financial losses. Existing studies explore user prompts' impact on LLM-based chatbots, yet practical methods to contain attacks on application-specific chatbots remain unexplored. This paper presents System Prompt Meta Language (SPML), a domain-specific language for refining prompts and monitoring the inputs to the LLM-based chatbots. SPML actively checks attack prompts, ensuring user inputs align with chatbot definitions to prevent malicious execution on the LLM backbone, optimizing costs. It also streamlines chatbot definition crafting with programming language capabilities, overcoming natural language design challenges. Additionally, we introduce a groundbreaking benchmark with 1.8k system prompts and 20k user inputs, offering the inaugural language and benchmark for chatbot definition evaluation. Experiments across datasets demonstrate SPML's proficiency in understanding attacker prompts, surpassing models like GPT-4, GPT-3.5, and LLAMA. Our data and codes are publicly available at: https://prompt-compiler.github.io/SPML/.
Abstract（参考訳）: 大規模言語モデル(llm)は自然言語アプリケーションを大きく変え、チャットボットを設計するための命令ベースの定義に依存しています。しかし、デプロイ後のチャットボット定義は修正されており、悪意のあるユーザによる攻撃に対して脆弱であり、非倫理的なアプリケーションや金銭的損失を防ぐ必要性を強調している。既存の研究では、LLMベースのチャットボットに対するユーザプロンプトの影響を探求しているが、アプリケーション固有のチャットボットに対する攻撃を封じ込めるための実践的手法は未解明のままである。本稿では,システムプロンプトメタ言語(SPML, System Prompt Meta Language)について述べる。 SPMLは攻撃プロンプトを積極的にチェックし、ユーザ入力とチャットボットの定義を一致させ、LLMバックボーン上で悪意のある実行を防止し、コストを最適化する。また、自然言語設計の課題を克服し、プログラミング言語機能を備えたチャットボット定義を合理化する。さらに、1.8kシステムプロンプトと20kユーザ入力を備えた画期的なベンチマークを導入し、チャットボット定義評価のための最初の言語とベンチマークを提供する。データセットにわたる実験では、攻撃者のプロンプトを理解するSPMLの習熟度が、GPT-4、GPT-3.5、LLAMAといったモデルを上回ることを示している。私たちのデータとコードは、https://prompt-compiler.github.io/SPML/で公開されています。

関連論文リスト

A Framework for Auditing Chatbots for Dialect-Based Quality-of-Service Harms [0.6144680854063939]
方言バイアスに対する大規模言語モデル(LLM)に基づくチャットボットの監査のためのフレームワークを提案する。システムが異なる人々に対して同じように機能しない場合に発生する、サービス品質の悪影響の程度を測定します。私たちのフレームワークには,実際に有用な3つの重要な特徴があります。
論文参考訳（メタデータ） (2025-06-04T19:58:51Z)
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。 OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文参考訳（メタデータ） (2025-05-29T05:25:27Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Prompt Engineering a Schizophrenia Chatbot: Utilizing a Multi-Agent Approach for Enhanced Compliance with Prompt Instructions [0.0699049312989311]
統合失調症の患者は、しばしば認知障害を伴い、自分の状態について学ぶ能力を妨げることがある。大規模言語モデル(LLM)は、トピックのメンタルヘルス情報をよりアクセシビリティとエンゲージメントを高める可能性を秘めているが、それらのブラックボックスの性質は倫理と安全に関する懸念を喚起する。
論文参考訳（メタデータ） (2024-10-10T09:49:24Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
A test suite of prompt injection attacks for LLM-based machine translation [4.459306403129608]
LLMベースのNLPシステムは典型的には、インプットデータをインプロンプトテンプレートに埋め込むことで動作する。最近、Sun と Miceli-Barone は LLM ベースの機械翻訳に対して PIA のクラスを提案した。我々は、WMT 2024の汎用機械翻訳タスクの全ての言語対にこのアプローチを拡張した。
論文参考訳（メタデータ） (2024-10-07T14:01:20Z)
A Reliable Common-Sense Reasoning Socialbot Built Using LLMs and Goal-Directed ASP [3.17686396799427]
自然言語を述語に翻訳するためにLLMモデルを用いたソーシャルボットであるAutoCompanionを提案する。本稿では, LLM を用いてユーザメッセージを解析し, s(CASP) エンジン出力から応答を生成する手法について述べる。
論文参考訳（メタデータ） (2024-07-26T04:13:43Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots [19.423566424346166]
本研究では,Large Language Model (LLM) ベースのチャットボットを用いて推薦システムを構築する。チャットボットが不特定要求に遭うと、応答が悪くなるのを観察する。我々は,このような誤った応答傾向は,アノテータを用いたLPM微調整に起因していると推測する。
論文参考訳（メタデータ） (2024-06-01T15:54:45Z)
Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。 LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文参考訳（メタデータ） (2024-05-30T16:36:47Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文参考訳（メタデータ） (2024-02-13T20:10:29Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文参考訳（メタデータ） (2022-06-06T22:09:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。