論文の概要: Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts
- arxiv url: http://arxiv.org/abs/2506.15751v1
- Date: Wed, 18 Jun 2025 05:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.762823
- Title: Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts
- Title(参考訳): Sysformer: 適応型システムプロンプトによる冷凍言語モデルの保護
- Authors: Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar,
- Abstract要約: 本研究では,LLMにおけるシステムプロンプトの適応を学習することで,大規模言語モデル(LLM)を保護するための新しいアプローチを提案する。
我々は、最初の$textbfsys$temプロンプトを LLM 入力埋め込み空間のより堅牢なシステムプロンプトに更新するtrans$textbfformer$モデルである $textbfSysformer$を提案する。
我々は、SysformerがLLMの堅牢性を大幅に向上させ、有害なプロンプトの拒絶率を最大80ドルまで引き上げると同時に、安全プロンプトのコンプライアンスを最大90%まで向上させることを示した。
- 参考スコア(独自算出の注目度): 28.043964124611026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are deployed in safety-critical settings, it is essential to ensure that their responses comply with safety standards. Prior research has revealed that LLMs often fail to grasp the notion of safe behaviors, resulting in either unjustified refusals to harmless prompts or the generation of harmful content. While substantial efforts have been made to improve their robustness, existing defenses often rely on costly fine-tuning of model parameters or employ suboptimal heuristic techniques. In this work, we take a novel approach to safeguard LLMs by learning to adapt the system prompts in instruction-tuned LLMs. While LLMs are typically pre-trained to follow a fixed system prompt, we investigate the impact of tailoring the system prompt to each specific user input on the safety of the responses. To this end, we propose $\textbf{Sysformer}$, a trans$\textbf{former}$ model that updates an initial $\textbf{sys}$tem prompt to a more robust system prompt in the LLM input embedding space while attending to the user prompt. While keeping the LLM parameters frozen, the Sysformer is trained to refuse to respond to a set of harmful prompts while responding ideally to a set of safe ones. Through extensive experiments on $5$ LLMs from different families and $2$ recent benchmarks, we demonstrate that Sysformer can significantly enhance the robustness of LLMs, leading to upto $80\%$ gain in the refusal rate on harmful prompts while enhancing the compliance with the safe prompts by upto $90\%$. Results also generalize well to sophisticated jailbreaking attacks, making LLMs upto $100\%$ more robust against different attack strategies. We hope our findings lead to cheaper safeguarding of LLMs and motivate future investigations into designing variable system prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全クリティカルな設定でデプロイされるため、その応答が安全基準に準拠していることを保証することが不可欠である。
以前の研究では、LSMは安全な行動の概念を理解できず、不適切な無害なプロンプトや有害な内容の生成を拒否することがあることが判明している。
その堅牢性を改善するためにかなりの努力がなされてきたが、既存の防衛は、しばしばモデルパラメータの細かな調整や、準最適ヒューリスティック技術を採用することに依存している。
本研究では,LLMにおけるシステムプロンプトの適応を学習することで,LLMを保護するための新しいアプローチを提案する。
LLMは通常、固定されたシステムプロンプトに従うように事前訓練されているが、特定のユーザ入力に対してシステムプロンプトを調整することが、応答の安全性に与える影響について検討する。
この目的のために、ユーザプロンプトに出席しながらLDM入力埋め込み空間において、より堅牢なシステムプロンプトに初期的な$\textbf{sys}$temプロンプトを更新する、$\textbf{Sysformer}$, a trans$\textbf{former}$モデルを提案する。
LLMパラメータを凍結させながら、Sysformerは一連の有害なプロンプトに応答せず、安全なプロンプトのセットに理想的に応答するように訓練されている。
異なるファミリーからの5ドルのLLMと2ドルの最近のベンチマークに関する広範な実験を通じて、SysformerはLLMの堅牢性を大幅に向上し、有害なプロンプトに対する拒絶率を最大80 %まで向上し、安全プロンプトへの準拠を最大90 %まで向上させることを示した。
結果として、高度なジェイルブレイク攻撃が一般化され、LLMは、異なる攻撃戦略に対して最大100\%$まで堅牢になる。
我々は,LSMの安全性を低下させ,可変系プロンプトの設計に関する今後の研究を動機付けることを願っている。
関連論文リスト
- $\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation [9.935219917903858]
本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。
$texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。
マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
論文 参考訳(メタデータ) (2025-04-28T11:01:08Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。