Fugu-MT 論文翻訳(概要): Tricking LLMs into Disobedience: Understanding, Analyzing, and Preventing Jailbreaks

論文の概要: Tricking LLMs into Disobedience: Understanding, Analyzing, and Preventing Jailbreaks

arxiv url: http://arxiv.org/abs/2305.14965v1
Date: Wed, 24 May 2023 09:57:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 17:23:43.618081
Title: Tricking LLMs into Disobedience: Understanding, Analyzing, and Preventing Jailbreaks
Title（参考訳）: LLMの非依存化: ジェイルブレイクの理解、分析、防止
Authors: Abhinav Rao, Sachin Vashistha, Atharva Naik, Somak Aditya, Monojit Choudhury
Abstract要約: 非専門家のユーザは、プロンプトを操作することで、LLM(Large Language Models)をジェイルブレイクすることができる。我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
参考スコア（独自算出の注目度）: 9.56514578528045
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent explorations with commercial Large Language Models (LLMs) have shown that non-expert users can jailbreak LLMs by simply manipulating the prompts; resulting in degenerate output behavior, privacy and security breaches, offensive outputs, and violations of content regulator policies. Limited formal studies have been carried out to formalize and analyze these attacks and their mitigations. We bridge this gap by proposing a formalism and a taxonomy of known (and possible) jailbreaks. We perform a survey of existing jailbreak methods and their effectiveness on open-source and commercial LLMs (such as GPT 3.5, OPT, BLOOM, and FLAN-T5-xxl). We further propose a limited set of prompt guards and discuss their effectiveness against known attack types.
Abstract（参考訳）: 商用のLarge Language Models (LLMs) による最近の調査では、非専門家のユーザは単にプロンプトを操作するだけで LLM をジェイルブレイクでき、結果として出力の退行、プライバシとセキュリティの侵害、攻撃的なアウトプット、コンテンツ規制ポリシー違反などが発生する。これらの攻撃とその緩和を形式化し分析するために、限定的な正式な研究がなされている。このギャップを埋めるには、形式主義と既知の(そして可能な)脱獄の分類を提案します。 GPT 3.5, OPT, BLOOM, FLAN-T5-xxl などのオープンソースおよび商用 LLM 上で, 既存のjailbreak 手法とその有効性を調査した。さらに,限定的なプロンプトガードを提案し,既知の攻撃タイプに対する有効性について考察する。

関連論文リスト

LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文参考訳（メタデータ） (2025-09-18T02:42:52Z)
Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文参考訳（メタデータ） (2025-02-11T13:50:50Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文参考訳（メタデータ） (2024-08-20T20:35:04Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文参考訳（メタデータ） (2024-06-28T11:35:54Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [19.45092401994873]
本研究では,大規模言語モデル(LLM)に対する間接的ジェイルブレイク攻撃について検討する。本稿では,新たな攻撃ベクトルRetrieval Augmented Generation Poisoningを紹介する。 Pandoraは、即座に操作することでLCMとRAGのシナジーを利用して、予期せぬ応答を生成する。
論文参考訳（メタデータ） (2024-02-13T12:40:39Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [34.36053833900958]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。 TAPは、最先端のLDMを80%以上にわたってジェイルブレイクするプロンプトを生成する。 TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文参考訳（メタデータ） (2023-12-04T18:49:23Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。 131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文参考訳（メタデータ） (2023-08-07T16:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。