Fugu-MT 論文翻訳(概要): Jailbreak Paradox: The Achilles' Heel of LLMs

論文の概要: Jailbreak Paradox: The Achilles' Heel of LLMs

arxiv url: http://arxiv.org/abs/2406.12702v1
Date: Tue, 18 Jun 2024 15:14:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 18:18:55.615417
Title: Jailbreak Paradox: The Achilles' Heel of LLMs
Title（参考訳）: Jailbreak Paradox: The Achilles' Heel of LLMs
Authors: Abhinav Rao, Monojit Choudhury, Somak Aditya,
Abstract要約: 基礎モデルの脱獄に関する2つのパラドックスを紹介する。第一に、完璧なジェイルブレイク分類器を構築することは不可能であり、第二に、より弱いモデルは、より強い(パーレト支配的な意味で)モデルがジェイルブレイクされているかどうかを一貫して検出できない。
参考スコア（独自算出の注目度）: 11.635736040804355
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce two paradoxes concerning jailbreak of foundation models: First, it is impossible to construct a perfect jailbreak classifier, and second, a weaker model cannot consistently detect whether a stronger (in a pareto-dominant sense) model is jailbroken or not. We provide formal proofs for these paradoxes and a short case study on Llama and GPT4-o to demonstrate this. We discuss broader theoretical and practical repercussions of these results.
Abstract（参考訳）: 基礎モデルのジェイルブレイクに関する2つのパラドックスを紹介する: まず、完璧なジェイルブレイク分類器を構築することは不可能であり、第二に、より弱いモデルでは、より強い(パレト支配的な意味で)モデルがジェイルブレイクされているかどうかを一貫して検出できない。これらのパラドックスの形式的証明と、Llama と GPT4-o の簡単なケーススタディによりこれを実証する。これらの結果のより広範な理論的および実践的な反感について論じる。

関連論文リスト

LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文参考訳（メタデータ） (2025-09-18T02:42:52Z)
Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models [32.752269224536754]
Defense2Attackは、Vision-Language Modelsの安全ガードレールをバイパスする新しいジェイルブレイク手法である。 Defense2Attackは単一の試行で優れたジェイルブレイク性能を達成し、最先端の攻撃方法より優れている。
論文参考訳（メタデータ） (2025-09-16T06:25:58Z)
Multi-Turn Jailbreaks Are Simpler Than They Seem [3.6010884750431438]
マルチターンジェイルブレイク攻撃は、シングルターン保護に最適化されたモデルに対して、70%以上の成功率を達成する。この結果は,AIの安全性評価やジェイルブレイク耐性システムの設計に重要な意味を持つ。
論文参考訳（メタデータ） (2025-08-11T05:57:41Z)
Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文参考訳（メタデータ） (2025-05-28T11:57:46Z)
Does Chain-of-Thought Reasoning Really Reduce Harmfulness from Jailbreaking? [10.631798238641275]
ジェイルブレイク攻撃は、Chain-of-Thought(CoT)推論によって強化された最近の推論モデルに対して、主に失敗することが観察されている。本稿では,CoT推論は脱獄による有害性を本当に減少させるのか,という疑問に答えようとしている。
論文参考訳（メタデータ） (2025-05-23T09:14:48Z)
One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。 ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文参考訳（メタデータ） (2025-05-23T08:02:38Z)
The Jailbreak Tax: How Useful are Your Jailbreak Outputs? [21.453837660747844]
既存のjailbreakによって生成されたモデル出力が実際に有用かどうかを問う。 8つの代表的なジェイルブレイクに対する評価は、ジェイルブレイク応答におけるモデルユーティリティの一貫した低下を示す。全体として、我々の研究は、AI安全性の新たな重要な指標としてジェイルブレイク税を提案している。
論文参考訳（メタデータ） (2025-04-14T20:30:41Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [21.380057443286034]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。脱獄攻撃は多いが、根底にあるメカニズムの理解は依然として限られている。
論文参考訳（メタデータ） (2024-11-17T16:08:34Z)
Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文参考訳（メタデータ） (2024-11-12T02:44:49Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.547063832007314]
単一のクラスからジェイルブレイクベクトルを抽出することで、他のセマンティックな異なるクラスからジェイルブレイクの有効性を緩和することができる。有害性特徴抑制の潜在的共通メカニズムについて検討し、有効なジェイルブレイクが即時有害性に対するモデルの認識を著しく低下させる証拠を見出した。
論文参考訳（メタデータ） (2024-06-13T16:26:47Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文参考訳（メタデータ） (2024-02-15T18:58:09Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文参考訳（メタデータ） (2023-05-24T09:57:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。