Fugu-MT 論文翻訳(概要): The Jailbreak Tax: How Useful are Your Jailbreak Outputs?

論文の概要: The Jailbreak Tax: How Useful are Your Jailbreak Outputs?

arxiv url: http://arxiv.org/abs/2504.10694v1
Date: Mon, 14 Apr 2025 20:30:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 08:23:07.526541
Title: The Jailbreak Tax: How Useful are Your Jailbreak Outputs?
Title（参考訳）: 脱獄税:脱獄の成果はいくら有効か?
Authors: Kristina Nikolić, Luze Sun, Jie Zhang, Florian Tramèr,
Abstract要約: 既存のjailbreakによって生成されたモデル出力が実際に有用かどうかを問う。 8つの代表的なジェイルブレイクに対する評価は、ジェイルブレイク応答におけるモデルユーティリティの一貫した低下を示す。全体として、我々の研究は、AI安全性の新たな重要な指標としてジェイルブレイク税を提案している。
参考スコア（独自算出の注目度）: 21.453837660747844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Jailbreak attacks bypass the guardrails of large language models to produce harmful outputs. In this paper, we ask whether the model outputs produced by existing jailbreaks are actually useful. For example, when jailbreaking a model to give instructions for building a bomb, does the jailbreak yield good instructions? Since the utility of most unsafe answers (e.g., bomb instructions) is hard to evaluate rigorously, we build new jailbreak evaluation sets with known ground truth answers, by aligning models to refuse questions related to benign and easy-to-evaluate topics (e.g., biology or math). Our evaluation of eight representative jailbreaks across five utility benchmarks reveals a consistent drop in model utility in jailbroken responses, which we term the jailbreak tax. For example, while all jailbreaks we tested bypass guardrails in models aligned to refuse to answer math, this comes at the expense of a drop of up to 92% in accuracy. Overall, our work proposes the jailbreak tax as a new important metric in AI safety, and introduces benchmarks to evaluate existing and future jailbreaks. We make the benchmark available at https://github.com/ethz-spylab/jailbreak-tax
Abstract（参考訳）: ジェイルブレイク攻撃は、有害な出力を生成するために、大きな言語モデルのガードレールをバイパスする。本稿では,既存のジェイルブレイクによるモデル出力が実際に有用かどうかを問う。例えば、爆弾を作るための指示を与えるモデルをジェイルブレイクすると、ジェイルブレイクは良い指示を得られるのだろうか? 多くの安全でない答え(例えば爆弾の指示)の実用性は厳密に評価することが難しいため、我々は、良質で容易に評価できるトピック(例えば、生物学や数学)に関する質問を退けるためにモデルを整列させることによって、既知の真実の答えを持つ新しいジェイルブレイク評価セットを構築する。 5つのユーティリティベンチマークにおける8つの代表的なジェイルブレイクの評価は、ジェイルブレイクの応答におけるモデルユーティリティの連続的な低下を示し、ジェイルブレイク税(jailbreak tax)と呼ぶ。例えば、私たちがテストしたすべてのジェイルブレイクは、数学に答えることを拒否したモデルでガードレールをバイパスしましたが、これは92%の精度の低下を犠牲にします。全体として、我々の研究は、AI安全性における新たな重要な指標としてジェイルブレイク税を提案し、既存のジェイルブレイクと将来のジェイルブレイクを評価するためのベンチマークを導入しています。ベンチマークはhttps://github.com/ethz-spylab/jailbreak-taxで公開しています。

関連論文リスト

Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文参考訳（メタデータ） (2025-05-28T11:57:46Z)
JailbreaksOverTime: Detecting Jailbreak Attacks Under Distribution Shift [10.737151905158926]
継続的学習を用いてジェイルブレイクを検出し、新しいジェイルブレイクに迅速に適応する方法を示す。新規のジェイルブレイクを特定するために,教師なしのアクティブモニタリング手法を導入する。
論文参考訳（メタデータ） (2025-04-28T03:01:51Z)
What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [3.0700566896646047]
異なるジェイルブレイク手法が、異なる非線形特徴を介してプロンプトで動作することを示す。これらの機械的ジェイルブレイクは、トレーニングされた35のテクニックのうち34つよりも確実にGemma-7B-ITをジェイルブレイクすることができる。
論文参考訳（メタデータ） (2024-11-02T17:29:47Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。 WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文参考訳（メタデータ） (2024-06-26T17:31:22Z)
Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models [86.6931690001357]
knowledge-to-jailbreakは、ドメイン知識からジェイルブレイク攻撃を生成することを目的としている。 12,974組の知識ジェイルブレイクペアで大規模なデータセットを収集します。実験によると、ジェイルブレイク発生器は、人間の専門家が作り上げたものと同等の有害なジェイルブレイクを発生させることができる。
論文参考訳（メタデータ） (2024-06-17T15:59:59Z)
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
ジェイルブレイク攻撃は、有害な応答を生成するために大規模言語モデル(LLM)を誘導する。ジェイルブレイクの評価には合意がない。 JailbreakEvalは、jailbreakの試みを評価するツールキットである。
論文参考訳（メタデータ） (2024-06-13T16:59:43Z)
Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.547063832007314]
単一のクラスからジェイルブレイクベクトルを抽出することで、他のセマンティックな異なるクラスからジェイルブレイクの有効性を緩和することができる。有害性特徴抑制の潜在的共通メカニズムについて検討し、有効なジェイルブレイクが即時有害性に対するモデルの認識を著しく低下させる証拠を見出した。
論文参考訳（メタデータ） (2024-06-13T16:26:47Z)
JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。 JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文参考訳（メタデータ） (2024-03-28T02:44:02Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文参考訳（メタデータ） (2024-02-15T18:58:09Z)
JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃の大規模評価を行う。我々は17の代表的なジェイルブレイク攻撃を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。 GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文参考訳（メタデータ） (2023-11-15T17:17:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。