論文の概要: On Prompt-Driven Safeguarding for Large Language Models
- arxiv url: http://arxiv.org/abs/2401.18018v2
- Date: Mon, 4 Mar 2024 06:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:38:51.923441
- Title: On Prompt-Driven Safeguarding for Large Language Models
- Title(参考訳): 大規模言語モデルのプロンプト駆動型保護について
- Authors: Chujie Zheng, Fan Yin, Hao Zhou, Fandong Meng, Jie Zhou, Kai-Wei
Chang, Minlie Huang, Nanyun Peng
- Abstract要約: モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
- 参考スコア(独自算出の注目度): 178.612893285033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prepending model inputs with safety prompts is a common practice for
safeguarding large language models (LLMs) from complying with queries that
contain harmful intents. However, the working mechanisms of safety prompts have
not been revealed yet, which hinders the potential for automatically optimizing
them to improve LLM safety. To this end, we investigate the impact of safety
prompts from the perspective of model representations. We find that in models'
representation space, harmful and harmless queries can be largely
distinguished, but this is not noticeably enhanced by safety prompts. Instead,
the queries' representations are moved by safety prompts in similar directions
where models become more prone to refusal (i.e., refusing to provide
assistance) even when the queries are harmless. Inspired by these findings, we
propose a method called DRO (Directed Representation Optimization) for
automatic safety prompt optimization. It treats safety prompts as continuous,
trainable embeddings and learns to move the representations of harmful/harmless
queries along/opposite the direction in which the model's refusal probability
increases. Experiments with eight LLMs on out-of-domain benchmarks demonstrate
that DRO remarkably improves the safeguarding performance of human-crafted
safety prompts and outperforms strong baselines, without compromising the
general model capability.
- Abstract(参考訳): 安全プロンプトによるモデル入力の待機は、有害なインテントを含むクエリに準拠しない大規模言語モデル(llm)を保護する一般的なプラクティスである。
しかし, 安全プロンプトの動作機構はまだ明らかになっていないため, LLMの安全性向上のために自動最適化を行う可能性を妨げている。
そこで本研究では,安全対策の効果をモデル表現の観点から検討する。
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
代わりに、クエリの表現は安全プロンプトによって同じ方向に移動され、クエリが無害である場合でもモデルが拒否しやすくなる(つまり、アシストを拒否する)。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
安全性プロンプトを連続的でトレーニング可能な埋め込みとして扱い、モデルの拒絶確率が増加する方向に沿って有害/ハームレスクエリの表現を移動させる。
ドメイン外のベンチマークで8つのLDMを用いた実験により、DROは人間の安全プロンプトの保護性能を著しく向上し、一般的なモデル能力を損なうことなく、強力なベースラインを上回っていることが示された。
関連論文リスト
- ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large
Language Models with Reverse Prompt Contrastive Decoding [95.49128988683191]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。