論文の概要: Self-Guard: Empower the LLM to Safeguard Itself
- arxiv url: http://arxiv.org/abs/2310.15851v1
- Date: Tue, 24 Oct 2023 14:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:29:27.745219
- Title: Self-Guard: Empower the LLM to Safeguard Itself
- Title(参考訳): セルフガード: LLMに自身を守る力を与える
- Authors: Zezhong Wang, Fangkai Yang, Lu Wang, Pu Zhao, Hongru Wang, Liang Chen,
Qingwei Lin, Kam-Fai Wong
- Abstract要約: ジェイルブレイク攻撃には2つの主要なアプローチがある。
本稿では,両安全性手法の強みを組み合わせた,セルフガードと呼ばれる新しいアプローチを提案する。
この実験は、セルフガードがジェイルブレイク攻撃に対して堅牢であることを示した。
- 参考スコア(独自算出の注目度): 34.64936748697721
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The jailbreak attack can bypass the safety measures of a Large Language Model
(LLM), generating harmful content. This misuse of LLM has led to negative
societal consequences. Currently, there are two main approaches to address
jailbreak attacks: safety training and safeguards. Safety training focuses on
further training LLM to enhance its safety. On the other hand, safeguards
involve implementing external models or filters to prevent harmful outputs.
However, safety training has constraints in its ability to adapt to new attack
types and often leads to a drop in model performance. Safeguards have proven to
be of limited help. To tackle these issues, we propose a novel approach called
Self-Guard, which combines the strengths of both safety methods. Self-Guard
includes two stages. In the first stage, we enhance the model's ability to
assess harmful content, and in the second stage, we instruct the model to
consistently perform harmful content detection on its own responses. The
experiment has demonstrated that Self-Guard is robust against jailbreak
attacks. In the bad case analysis, we find that LLM occasionally provides
harmless responses to harmful queries. Additionally, we evaluated the general
capabilities of the LLM before and after safety training, providing evidence
that Self-Guard does not result in the LLM's performance degradation. In
sensitivity tests, Self-Guard not only avoids inducing over-sensitivity in LLM
but also can even mitigate this issue.
- Abstract(参考訳): 脱獄攻撃は、大規模な言語モデル(llm)の安全性対策をバイパスし、有害なコンテンツを生成することができる。
このLSMの誤用は社会的な悪影響を及ぼす。
現在、ジェイルブレイク攻撃に対処するには、安全トレーニングとセーフガードという2つの主要なアプローチがある。
安全性トレーニングは、安全性を高めるためのさらなる訓練llmに焦点を当てている。
一方、セーフガードには、有害な出力を防ぐための外部モデルやフィルタの実装が含まれる。
しかし、安全性トレーニングは新しい攻撃タイプに適応する能力に制約があり、しばしばモデルパフォーマンスの低下につながる。
セーフガードは限られた助けになる。
これらの問題に対処するため,我々は,両安全法の強みを組み合わせたセルフガードと呼ばれる新しいアプローチを提案する。
セルフガードには2つのステージがある。
第1段階では,有害コンテンツを評価するモデルの能力を高め,第2段階では,有害コンテンツ検出を自己の応答に対して一貫して行うように指示する。
この実験は、自己保護がジェイルブレイク攻撃に対して堅牢であることを実証した。
悪いケース分析では、LLMは時に有害なクエリに対する無害な応答を提供する。
さらに,安全訓練前後におけるLLMの汎用能力を評価し,自己ガードがLLMの性能劣化を招かないことを示す。
感度テストでは、Self-GuardはLSMの過敏性を引き起こすことを避けるだけでなく、この問題を軽減することもできる。
関連論文リスト
- Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by
Exploring Refusal Loss Landscapes [69.5883095262619]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks
with Self-Refinement [2.854482269849925]
言語モデル(LM)は、敵の誤用に対する悪用に対して脆弱である。
安全でないLMであっても、優れた安全性を実現するフォーマッティングによる自己再定義を提案する。
また、安全性に配慮しないLMは、より便利で安全な応答を提供することで、安全に配慮したLMよりも優れていることも見てきた。
論文 参考訳(メタデータ) (2024-02-23T08:22:24Z) - Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial
Tuning [25.732636833706845]
本稿では,PAT(Prompt Adversarial Tuning)という手法を用いて,防御制御機構を訓練する手法を提案する。
我々は、最適化された目標を達成するために、敵の訓練に似た訓練プロセスを設計する。
提案手法はブラックボックスとホワイトボックスの両方で有効である。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs
Without Fine-Tuning [7.394607871445118]
大規模言語モデル(LLM)は、Jailbreakingのプロンプトに対して脆弱である。
また, LLMパラメータの最大20%のプルーニングは, 追加トレーニングを伴わずに攻撃に対する抵抗を著しく増大させることを示した。
我々は5つのカテゴリにまたがって225の有害なタスクを10種類のジェイルブレイクプロンプトに挿入するキュレートデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-19T18:05:34Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can
Fool Large Language Models Easily [54.21991825128219]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context
Demonstrations [36.61907023057978]
大きな言語モデル(LLM)は様々なタスクで顕著な成功を収めているが、それらの安全性と悪意のあるコンテンツを生成する可能性への懸念が浮上している。
我々は,LLMのアライメント能力を操作する上で,インコンテクスト学習(ICL)の能力について検討する。
In-Context Attack (ICA) と In-Context Defense (ICD) の手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [20.207763124093017]
大規模言語モデル(LLM)は高品質なテキスト生成に人気があるが、有害なコンテンツを生成できる。
LLM自己防衛(LSM Self Defense, LLM Self Defense)は, LLMスクリーンに応答を誘導することでこれらの攻撃を防御する簡単な手法である。
GPT 3.5 と Llama 2 で LLM Self Defense をテストする。
論文 参考訳(メタデータ) (2023-08-14T17:54:10Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。