Fugu-MT 論文翻訳(概要): Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge

論文の概要: Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge

arxiv url: http://arxiv.org/abs/2404.05880v1
Date: Mon, 8 Apr 2024 21:26:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 16:37:51.049718
Title: Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge
Title（参考訳）: Eraser: 未学習の有害知識による大規模言語モデルにおけるジェイルブレイク防御
Authors: Weikai Lu, Ziqian Zeng, Jianwei Wang, Zhengdong Lu, Zelin Chen, Huiping Zhuang, Cen Chen,
Abstract要約: 脱獄攻撃により、Large Language Models (LLM) は保護をバイパスし、有害なコンテンツを生成することができる。既存のジェイルブレイク防御手法は、有害な知識がモデルの中に存在するという根本的な問題に対処できなかった。本稿では,有害な知識の学習,一般知識の保持,安全性の維持という3つの目標を主目的として,エラザーと呼ばれる新しい防衛手法を提案する。
参考スコア（独自算出の注目度）: 18.729599602390874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Jailbreaking attacks can enable Large Language Models (LLMs) to bypass the safeguard and generate harmful content. Existing jailbreaking defense methods have failed to address the fundamental issue that harmful knowledge resides within the model, leading to potential jailbreak risks for LLMs. In this paper, we propose a novel defense method called Eraser, which mainly includes three goals: unlearning harmful knowledge, retaining general knowledge, and maintaining safety alignment. The intuition is that if an LLM forgets the specific knowledge required to answer a harmful question, it will no longer have the ability to answer harmful questions. The training of Erase does not actually require the model's own harmful knowledge, and it can benefit from unlearning general answers related to harmful queries, which means it does not need assistance from the red team. The experimental results show that Eraser can significantly reduce the jailbreaking success rate for various attacks without compromising the general capabilities of the model.
Abstract（参考訳）: 脱獄攻撃により、Large Language Models (LLM) は保護をバイパスし、有害なコンテンツを生成することができる。既存のジェイルブレイク防御手法は、有害な知識がモデル内に存在するという根本的な問題に対処できず、LCMにとって潜在的にジェイルブレイクのリスクをもたらす。本稿では,有害な知識の学習,一般知識の保持,安全性の維持という3つの目標を主目的として,エラザーと呼ばれる新しい防衛手法を提案する。直感的には、LLMが有害な質問に答えるために必要な特定の知識を忘れてしまうと、有害な質問に答える能力はなくなる。 Eraseのトレーニングは、モデル自身の有害な知識を実際に必要とせず、有害なクエリに関連する非学習的な一般的な回答の恩恵を受ける可能性がある。実験結果から, 各種攻撃における脱獄成功率を, モデル全体の性能を損なうことなく著しく低減できることが示された。

関連論文リスト

Dark LLMs: The Growing Threat of Unaligned AI Models [8.183446952097528]
大規模言語モデル (LLMs) は、医療から教育に至るまでの分野を進歩させ、現代生活を急速に再形成する。 LLMのジェイルブレイク攻撃に対する脆弱性は、彼らがそこから学んだデータに由来する。我々の研究は、倫理的ガードレールを使わずに意図的に設計された暗いLLMモデルやジェイルブレイク技術で修正されたモデルによって引き起こされる脅威を識別する。
論文参考訳（メタデータ） (2025-05-15T08:07:04Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models [0.0]
本稿では,大規模言語モデル (LLM) における安全性に起因したバイアスが引き起こす固有のリスクを明らかにする,BiasJailbreakの概念を紹介する。生成前に防御プロンプトを注入することにより、脱獄未遂を防止する効率的な防御方法であるBiasDefenseを提案する。本研究は, LLMの倫理的バイアスが, 実際に安全でない出力を発生させる可能性を強調し, LLMをより安全でバイアスのないものにする方法を提案する。
論文参考訳（メタデータ） (2024-10-17T08:46:09Z)
Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。 LLMは有害なデータ収集や隠蔽攻撃に使用できる。私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文参考訳（メタデータ） (2024-08-20T09:11:21Z)
Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks [89.54736699767315]
我々は、LLMの有害な知識を直接解き放つことは、脱獄攻撃から守るためのより効果的な方法になり得ると推測する。 Vicuna-7Bの攻撃成功率(ASR)は82.6%から7.7%に低下した。 Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
論文参考訳（メタデータ） (2024-07-03T07:14:05Z)
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。 WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文参考訳（メタデータ） (2024-06-26T17:31:22Z)
Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models [86.6931690001357]
knowledge-to-jailbreakは、ドメイン知識からジェイルブレイク攻撃を生成することを目的としている。 12,974組の知識ジェイルブレイクペアで大規模なデータセットを収集します。実験によると、ジェイルブレイク発生器は、人間の専門家が作り上げたものと同等の有害なジェイルブレイクを発生させることができる。
論文参考訳（メタデータ） (2024-06-17T15:59:59Z)
Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。 eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。 LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文参考訳（メタデータ） (2024-05-31T07:41:03Z)
Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction [31.171418109420276]
安全微調整におけるバイアスの脆弱性を特定することによって,LLMのセキュリティに関する理論的基盤を開拓した。我々は、偽装による有害な指示を隠蔽するDRAというブラックボックスジェイルブレイク法を設計する。我々は、さまざまなオープンソースおよびクローズドソースモデルでDRAを評価し、最先端のジェイルブレイク成功率と攻撃効率を示す。
論文参考訳（メタデータ） (2024-02-28T06:50:14Z)
Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文参考訳（メタデータ） (2024-02-24T02:27:55Z)
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。 AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文参考訳（メタデータ） (2023-11-16T11:52:22Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文参考訳（メタデータ） (2023-09-29T17:12:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。