論文の概要: Prompt-Driven LLM Safeguarding via Directed Representation Optimization
- arxiv url: http://arxiv.org/abs/2401.18018v1
- Date: Wed, 31 Jan 2024 17:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:39:11.378644
- Title: Prompt-Driven LLM Safeguarding via Directed Representation Optimization
- Title(参考訳): Directed Representation Optimization を用いたプロンプト駆動 LLM セーフガード
- Authors: Chujie Zheng, Fan Yin, Hao Zhou, Fandong Meng, Jie Zhou, Kai-Wei
Chang, Minlie Huang, Nanyun Peng
- Abstract要約: モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
これらの知見に触発されて,自動安全プロンプト最適化のためのDRO法を提案する。
DROは安全性のプロンプトを継続的かつ訓練可能な埋め込みとして扱い、モデルの拒絶確率が増大する方向に沿って有害/有害なクエリの表現を移動させる。
- 参考スコア(独自算出の注目度): 178.612893285033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prepending model inputs with safety prompts is a common practice of
safeguarding large language models (LLMs) from complying with queries that
contain harmful intents. However, the working mechanisms of safety prompts have
not yet been fully understood, which hinders the potential for automatically
optimizing them for improved LLM safety. Motivated by this problem, we
investigate the impact of safety prompts from the perspective of model
representations. We find that in models' representation space, harmful and
harmless queries can be largely distinguished, but this is not noticeably
enhanced by safety prompts. Instead, the queries' representations are moved by
different safety prompts in similar directions, where models become more prone
to refusal (i.e., refusing to provide assistance) even when the queries are
harmless. Inspired by these findings, we propose a method called DRO (Directed
Representation Optimization) for automatic safety prompt optimization. DRO
treats safety prompts as continuous, trainable embeddings and learns to move
the representations of harmful/harmless queries along/opposite the direction in
which the model's refusal probability increases. We demonstrate that DRO
remarkably improves the safeguarding performance of human-crafted safety
prompts and outperforms strong baselines, as evaluated on out-of-domain
benchmarks, without compromising the general model capability.
- Abstract(参考訳): モデル入力を安全プロンプトで予測することは、大きな言語モデル(LLM)が有害な意図を含むクエリに従わないようにする一般的な方法である。
しかし、安全プロンプトの動作メカニズムはまだ完全には理解されておらず、LCMの安全性向上のために自動的に最適化する可能性を妨げている。
本稿では, モデル表現の観点から, 安全プロンプトの影響について検討する。
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
代わりに、クエリの表現は、同じ方向に異なる安全プロンプトによって移動され、クエリが無害である場合でもモデルが拒否する(つまり、補助の提供を拒否する)傾向がある。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
DROは安全性のプロンプトを継続的かつ訓練可能な埋め込みとして扱い、モデルの拒絶確率が増加する方向に沿って有害/有害なクエリの表現を移動させる。
そこで本研究では,DROは,汎用モデル性能を損なうことなく,人造安全プロンプトの保護性能を著しく向上し,強力なベースラインを向上することを示した。
関連論文リスト
- From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards [4.0645651835677565]
我々は、既に緩和されたバイアスのモデルを評価することにより、安全対策の有効性を検討する。
非有毒なプロンプトのセットを作成し、それをLlamaモデルの評価に用いる。
安全と健康のトレードオフは、サービス品質の害につながる可能性のある特定の人口集団にとってより顕著である。
論文 参考訳(メタデータ) (2024-03-20T00:22:38Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large
Language Models with Reverse Prompt Contrastive Decoding [95.49128988683191]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。