Fugu-MT 論文翻訳(概要): Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack

論文の概要: Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack

arxiv url: http://arxiv.org/abs/2406.11682v1
Date: Mon, 17 Jun 2024 15:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 13:53:20.937227
Title: Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack
Title（参考訳）: ナレッジ・トゥ・ジェイルブレイク:1つのナレッジポイントは1つのアタック
Authors: Shangqing Tu, Zhuoran Pan, Wenxuan Wang, Zhexin Zhang, Yuliang Sun, Jifan Yu, Hongning Wang, Lei Hou, Juanzi Li,
Abstract要約: Knowledge-to-jailbreakは、ドメイン知識からジェイルブレイクを生成し、特定のドメイン上での大規模言語モデルの安全性を評価することを目的としている。 12,974組の知識ジェイルブレイクペアを持つ大規模データセットを収集し、ジェイルブレイクジェネレータとして大規模言語モデルを微調整する。
参考スコア（独自算出の注目度）: 86.6931690001357
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) have been increasingly applied to various domains, which triggers increasing concerns about LLMs' safety on specialized domains, e.g. medicine. However, testing the domain-specific safety of LLMs is challenging due to the lack of domain knowledge-driven attacks in existing benchmarks. To bridge this gap, we propose a new task, knowledge-to-jailbreak, which aims to generate jailbreaks from domain knowledge to evaluate the safety of LLMs when applied to those domains. We collect a large-scale dataset with 12,974 knowledge-jailbreak pairs and fine-tune a large language model as jailbreak-generator, to produce domain knowledge-specific jailbreaks. Experiments on 13 domains and 8 target LLMs demonstrate the effectiveness of jailbreak-generator in generating jailbreaks that are both relevant to the given knowledge and harmful to the target LLMs. We also apply our method to an out-of-domain knowledge base, showing that jailbreak-generator can generate jailbreaks that are comparable in harmfulness to those crafted by human experts. Data and code: https://github.com/THU-KEG/Knowledge-to-Jailbreak/.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なドメインに適用され、特定のドメイン、例えば医療におけるLLMsの安全性に対する懸念が高まっている。しかし、LLMのドメイン固有の安全性をテストすることは、既存のベンチマークでドメイン知識駆動型攻撃が欠如しているため、難しい。このギャップを埋めるために、ドメイン知識からジェイルブレイクを生成し、それらのドメインに適用した場合のLDMの安全性を評価するための新しいタスク、ナレッジ・トゥ・ジェイルブレイクを提案する。 12,974の知識ジェイルブレイクペアを持つ大規模データセットを収集し、大きな言語モデルをジェイルブレイクジェネレータとして微調整し、ドメインの知識固有のジェイルブレイクを生成する。 13のドメインと8のLLMに対する実験は、与えられた知識に関連し、ターゲットのLLMに有害なジェイルブレイクを生成するのにジェイルブレイクジェネレーターの有効性を示す。また,本手法をドメイン外知識ベースに適用することにより,ジェイルブレイク発生器が人手によるジェイルブレイクに匹敵する有害なジェイルブレイクを発生させることができることを示す。データとコード:https://github.com/THU-KEG/Knowledge-to-Jailbreak/

関連論文リスト

InfoFlood: Jailbreaking Large Language Models with Information Overload [16.626185161464164]
過度の言語的複雑さが組込み安全性メカニズムを阻害する新たな脆弱性を同定する。我々は、悪意のあるクエリを複雑な情報過剰なクエリに変換するジェイルブレイク攻撃であるInfoFloodを提案する。広く使用されている4つのLLM-GPT-4o, GPT-3.5-turbo, Gemini 2.0, LLaMA 3.1に対するInfoFloodの有効性を実証的に検証した。
論文参考訳（メタデータ） (2025-06-13T23:03:11Z)
A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models [6.946931840176725]
この研究は特に、jailbreakの脆弱性の課題に焦点を当てている。大規模な言語モデルの訓練領域に根ざした新しいジェイルブレイク攻撃の分類を導入している。
論文参考訳（メタデータ） (2025-04-07T12:05:16Z)
Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文参考訳（メタデータ） (2024-06-28T11:35:54Z)
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。 WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文参考訳（メタデータ） (2024-06-26T17:31:22Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models [14.571852591904092]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文参考訳（メタデータ） (2024-02-05T18:54:43Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。 131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文参考訳（メタデータ） (2023-08-07T16:55:20Z)
Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文参考訳（メタデータ） (2023-05-24T09:57:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。