Fugu-MT 論文翻訳(概要): Self-Guard: Empower the LLM to Safeguard Itself

論文の概要: Self-Guard: Empower the LLM to Safeguard Itself

arxiv url: http://arxiv.org/abs/2310.15851v2
Date: Fri, 22 Mar 2024 10:02:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 22:40:07.982604
Title: Self-Guard: Empower the LLM to Safeguard Itself
Title（参考訳）: セルフガード: LLMに自身を守る力を与える
Authors: Zezhong Wang, Fangkai Yang, Lu Wang, Pu Zhao, Hongru Wang, Liang Chen, Qingwei Lin, Kam-Fai Wong,
Abstract要約: ジェイルブレイク攻撃には2つの主要なアプローチがある。本稿では,両安全性手法の強みを組み合わせた,セルフガードと呼ばれる新しいアプローチを提案する。この実験は、セルフガードがジェイルブレイク攻撃に対して堅牢であることを示した。
参考スコア（独自算出の注目度）: 33.2186340694417
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The jailbreak attack can bypass the safety measures of a Large Language Model (LLM), generating harmful content. This misuse of LLM has led to negative societal consequences. Currently, there are two main approaches to address jailbreak attacks: safety training and safeguards. Safety training focuses on further training LLM to enhance its safety. On the other hand, safeguards involve implementing external models or filters to prevent harmful outputs. However, safety training has constraints in its ability to adapt to new attack types and often leads to a drop in model performance. Safeguards have proven to be of limited help. To tackle these issues, we propose a novel approach called Self-Guard, which combines the strengths of both safety methods. Self-Guard includes two stages. In the first stage, we enhance the model's ability to assess harmful content, and in the second stage, we instruct the model to consistently perform harmful content detection on its own responses. The experiment has demonstrated that Self-Guard is robust against jailbreak attacks. In the bad case analysis, we find that LLM occasionally provides harmless responses to harmful queries. Additionally, we evaluated the general capabilities of the LLM before and after safety training, providing evidence that Self-Guard does not result in the LLM's performance degradation. In sensitivity tests, Self-Guard not only avoids inducing over-sensitivity in LLM but also can even mitigate this issue.
Abstract（参考訳）: ジェイルブレイク攻撃は、Large Language Model(LLM)の安全性対策を回避し、有害なコンテンツを生成する。このLSMの誤用は、社会的にネガティブな結果をもたらした。現在、ジェイルブレイク攻撃に対処するための主要なアプローチは2つある。安全訓練は、安全性を高めるためにLLMをさらに訓練することに焦点を当てている。一方、セーフガードには、有害な出力を防ぐための外部モデルやフィルタの実装が含まれる。しかし、安全性トレーニングは新しい攻撃タイプに適応する能力に制約があり、しばしばモデルパフォーマンスの低下につながる。セーフガードは限られた助けとなることが証明されている。これらの課題に対処するため,両手法の強みを組み合わせたセルフガード方式を提案する。セルフガードには2つのステージがある。第1段階では有害なコンテンツを評価する能力を高め、第2段階では有害なコンテンツ検出を継続的に行うよう指示する。この実験は、セルフガードがジェイルブレイク攻撃に対して堅牢であることを示した。悪いケース分析では、LLMは時に有害なクエリに対する無害な応答を提供する。さらに,安全訓練前後におけるLLMの汎用能力を評価し,自己ガードがLLMの性能劣化を招かないことを示す。感度テストでは、Self-GuardはLSMの過敏性を引き起こすことを避けるだけでなく、この問題を軽減することもできる。

関連論文リスト

Context Misleads LLMs: The Role of Context Filtering in Maintaining Safe Alignment of LLMs [7.183743839410718]
悪意のあるユーザは、しばしば敵の文脈を利用して、大規模言語モデル(LLM)を欺く。本研究では,コンテキストフィルタリングモデルと呼ばれる新しい防御機構を提案する。我々のモデルは、ジェイルブレイク攻撃の攻撃成功率を最大88%下げる能力を示している。
論文参考訳（メタデータ） (2025-08-09T02:37:59Z)
LLMs Encode Harmfulness and Refusal Separately [33.3511110052005]
LLMは有害な指示を拒否するように訓練されていますが、単に拒否する以上の有害性を理解しているのでしょうか? 我々は,LLMの安全性メカニズム,すなわち有害性を分析するための新しい次元を同定し,拒絶とは別の概念として内部的にコード化する。特定のジェイルブレイク法は、モデルの内部の有害性に対する信念を逆転させることなく、拒絶信号を減らすことで機能する。
論文参考訳（メタデータ） (2025-07-16T03:48:03Z)
Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。 SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文参考訳（メタデータ） (2025-05-17T15:54:52Z)
LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文参考訳（メタデータ） (2025-04-02T09:21:26Z)
You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文参考訳（メタデータ） (2025-01-21T15:24:29Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems [0.0]
我々は,PCJailbreakの概念を導入し,これらの安全性に起因したバイアスによって引き起こされる固有のリスクを強調した。生成前に防御プロンプトを注入することでジェイルブレイクを防ぎ,効率的な防御手法であるPCDefenseを提案する。
論文参考訳（メタデータ） (2024-10-17T08:46:09Z)
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文参考訳（メタデータ） (2024-09-21T15:36:26Z)
Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。本手法は良性を保持しながらタンパー抵抗を大幅に改善する。以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
論文参考訳（メタデータ） (2024-08-01T17:59:12Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。 PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。 PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-07-01T23:25:30Z)
How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文参考訳（メタデータ） (2024-06-09T05:04:37Z)
Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。 IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。 IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文参考訳（メタデータ） (2024-04-22T08:16:07Z)
Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文参考訳（メタデータ） (2024-04-01T17:59:06Z)
Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks with Self-Refinement [2.854482269849925]
言語モデル(LM)は、敵の誤用に対する悪用に対して脆弱である。安全でないLMであっても、優れた安全性を実現するフォーマッティングによる自己再定義を提案する。また、安全性に配慮しないLMは、より便利で安全な応答を提供することで、安全に配慮したLMよりも優れていることも見てきた。
論文参考訳（メタデータ） (2024-02-23T08:22:24Z)
Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。 LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-02T09:18:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。