論文の概要: Self-Guard: Empower the LLM to Safeguard Itself
- arxiv url: http://arxiv.org/abs/2310.15851v1
- Date: Tue, 24 Oct 2023 14:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:29:27.745219
- Title: Self-Guard: Empower the LLM to Safeguard Itself
- Title(参考訳): セルフガード: LLMに自身を守る力を与える
- Authors: Zezhong Wang, Fangkai Yang, Lu Wang, Pu Zhao, Hongru Wang, Liang Chen,
Qingwei Lin, Kam-Fai Wong
- Abstract要約: ジェイルブレイク攻撃には2つの主要なアプローチがある。
本稿では,両安全性手法の強みを組み合わせた,セルフガードと呼ばれる新しいアプローチを提案する。
この実験は、セルフガードがジェイルブレイク攻撃に対して堅牢であることを示した。
- 参考スコア(独自算出の注目度): 34.64936748697721
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The jailbreak attack can bypass the safety measures of a Large Language Model
(LLM), generating harmful content. This misuse of LLM has led to negative
societal consequences. Currently, there are two main approaches to address
jailbreak attacks: safety training and safeguards. Safety training focuses on
further training LLM to enhance its safety. On the other hand, safeguards
involve implementing external models or filters to prevent harmful outputs.
However, safety training has constraints in its ability to adapt to new attack
types and often leads to a drop in model performance. Safeguards have proven to
be of limited help. To tackle these issues, we propose a novel approach called
Self-Guard, which combines the strengths of both safety methods. Self-Guard
includes two stages. In the first stage, we enhance the model's ability to
assess harmful content, and in the second stage, we instruct the model to
consistently perform harmful content detection on its own responses. The
experiment has demonstrated that Self-Guard is robust against jailbreak
attacks. In the bad case analysis, we find that LLM occasionally provides
harmless responses to harmful queries. Additionally, we evaluated the general
capabilities of the LLM before and after safety training, providing evidence
that Self-Guard does not result in the LLM's performance degradation. In
sensitivity tests, Self-Guard not only avoids inducing over-sensitivity in LLM
but also can even mitigate this issue.
- Abstract(参考訳): 脱獄攻撃は、大規模な言語モデル(llm)の安全性対策をバイパスし、有害なコンテンツを生成することができる。
このLSMの誤用は社会的な悪影響を及ぼす。
現在、ジェイルブレイク攻撃に対処するには、安全トレーニングとセーフガードという2つの主要なアプローチがある。
安全性トレーニングは、安全性を高めるためのさらなる訓練llmに焦点を当てている。
一方、セーフガードには、有害な出力を防ぐための外部モデルやフィルタの実装が含まれる。
しかし、安全性トレーニングは新しい攻撃タイプに適応する能力に制約があり、しばしばモデルパフォーマンスの低下につながる。
セーフガードは限られた助けになる。
これらの問題に対処するため,我々は,両安全法の強みを組み合わせたセルフガードと呼ばれる新しいアプローチを提案する。
セルフガードには2つのステージがある。
第1段階では,有害コンテンツを評価するモデルの能力を高め,第2段階では,有害コンテンツ検出を自己の応答に対して一貫して行うように指示する。
この実験は、自己保護がジェイルブレイク攻撃に対して堅牢であることを実証した。
悪いケース分析では、LLMは時に有害なクエリに対する無害な応答を提供する。
さらに,安全訓練前後におけるLLMの汎用能力を評価し,自己ガードがLLMの性能劣化を招かないことを示す。
感度テストでは、Self-GuardはLSMの過敏性を引き起こすことを避けるだけでなく、この問題を軽減することもできる。
関連論文リスト
- You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。
主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文 参考訳(メタデータ) (2025-01-21T15:24:29Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。
本手法は良性を保持しながらタンパー抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T17:59:12Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。
大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:06Z) - Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks
with Self-Refinement [2.854482269849925]
言語モデル(LM)は、敵の誤用に対する悪用に対して脆弱である。
安全でないLMであっても、優れた安全性を実現するフォーマッティングによる自己再定義を提案する。
また、安全性に配慮しないLMは、より便利で安全な応答を提供することで、安全に配慮したLMよりも優れていることも見てきた。
論文 参考訳(メタデータ) (2024-02-23T08:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。