Fugu-MT 論文翻訳(概要): Rethinking How to Evaluate Language Model Jailbreak

論文の概要: Rethinking How to Evaluate Language Model Jailbreak

arxiv url: http://arxiv.org/abs/2404.06407v3
Date: Tue, 7 May 2024 14:06:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 19:03:36.692863
Title: Rethinking How to Evaluate Language Model Jailbreak
Title（参考訳）: 言語モデルジェイルブレイクを評価する方法の再考
Authors: Hongyu Cai, Arjun Arunasalam, Leo Y. Lin, Antonio Bianchi, Z. Berkay Celik,
Abstract要約: 言語モデルジェイルブレイクを評価するために, 3つの指標, 保護違反, 情報性, 相対真理性を提案する。 3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。
参考スコア（独自算出の注目度）: 16.301224741410312
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) have become increasingly integrated with various applications. To ensure that LLMs do not generate unsafe responses, they are aligned with safeguards that specify what content is restricted. However, such alignment can be bypassed to produce prohibited content using a technique commonly referred to as jailbreak. Different systems have been proposed to perform the jailbreak automatically. These systems rely on evaluation methods to determine whether a jailbreak attempt is successful. However, our analysis reveals that current jailbreak evaluation methods have two limitations. (1) Their objectives lack clarity and do not align with the goal of identifying unsafe responses. (2) They oversimplify the jailbreak result as a binary outcome, successful or not. In this paper, we propose three metrics, safeguard violation, informativeness, and relative truthfulness, to evaluate language model jailbreak. Additionally, we demonstrate how these metrics correlate with the goal of different malicious actors. To compute these metrics, we introduce a multifaceted approach that extends the natural language generation evaluation method after preprocessing the response. We evaluate our metrics on a benchmark dataset produced from three malicious intent datasets and three jailbreak systems. The benchmark dataset is labeled by three annotators. We compare our multifaceted approach with three existing jailbreak evaluation methods. Experiments demonstrate that our multifaceted evaluation outperforms existing methods, with F1 scores improving on average by 17% compared to existing baselines. Our findings motivate the need to move away from the binary view of the jailbreak problem and incorporate a more comprehensive evaluation to ensure the safety of the language model.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なアプリケーションとますます統合されている。 LLMが安全でない応答を生成しないことを保証するため、制限されたコンテンツを指定するセーフガードと整合している。しかし、このようなアライメントは、一般的にジェイルブレイクと呼ばれる技法を用いて禁止コンテンツを作成するためにバイパスすることができる。ジェイルブレイクを自動実行する様々なシステムが提案されている。これらのシステムは、ジェイルブレイクの試みが成功したかどうかを判断するために評価手法に依存している。しかし,本分析の結果,現在の脱獄評価法には2つの限界があることが判明した。 1) 目的は明確さを欠き, 安全でない応答を識別する目標と一致しない。 2) 2つの結果としてジェイルブレイク結果を過度に単純化する。本稿では,言語モデルジェイルブレイクを評価するために,保護侵害,情報性,相対真理性の3つの指標を提案する。さらに、これらの指標が、異なる悪意あるアクターの目標とどのように相関しているかを示す。これらのメトリクスを計算するために,応答前処理後の自然言語生成評価手法を拡張する多面的手法を提案する。 3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。ベンチマークデータセットには3つのアノテーションがラベル付けされている。多面的アプローチと既存の3つのジェイルブレイク評価手法を比較した。実験の結果,F1スコアは既存のベースラインに比べて平均17%向上した。以上の結果から,脱獄問題のバイナリビューから脱却し,言語モデルの安全性を確保するために,より包括的な評価を組み込むことの必要性が示唆された。

関連論文リスト

LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文参考訳（メタデータ） (2025-09-18T02:42:52Z)
LLM Jailbreak Oracle [8.00884776306068]
我々は、ジェイルブレイクオラクル問題を解決するための最初の効率的なアルゴリズムであるBoaを紹介する。 Boaは、体系的な防衛評価、レッドチーム攻撃の標準化された比較、極端な敵の条件下でのモデルの認証を含む厳格なセキュリティアセスメントを可能にする。
論文参考訳（メタデータ） (2025-06-17T20:37:29Z)
Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文参考訳（メタデータ） (2025-05-28T11:57:46Z)
JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。 JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文参考訳（メタデータ） (2025-04-03T05:00:28Z)
GuidedBench: Equipping Jailbreak Evaluation with Guidelines [10.603857042090521]
大規模言語モデル(LLM)のジェイルブレイク手法は、安全で責任のあるAIシステムを構築する上で注目を集めている。本稿では, より堅牢なジェイルブレイク手法評価フレームワークについて紹介し, キュレートされた有害質問データセット, 詳細なケース・バイ・ケース評価ガイドライン, およびこれらのガイドラインを備えたスコアリングシステムについて述べる。実験の結果, 既存のjailbreak手法は, ベンチマークを用いて評価した場合, 判定精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-24T06:57:27Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [8.485286811635557]
本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。我々は、プロンプトトークンに対応する潜在表現を使用して、失敗したジェイルブレイクから成功したプローブを分類するように訓練する。これは、異なるジェイルブレイク戦略が、異なる非線形、非ユニバーサルの機能を悪用していることを明らかにする。
論文参考訳（メタデータ） (2024-11-02T17:29:47Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
Jailbreak攻撃は、禁止命令に対する有害な応答を生成するために、LLM(Large Language Models)を誘導することを目的としている。ジェイルブレイクの試みが成功するかどうかを評価する方法には(当然のことながら)合意がない。 JailbreakEvalは、Jailbreakの試みの評価に焦点を当てた、ユーザフレンドリーなツールキットである。
論文参考訳（メタデータ） (2024-06-13T16:59:43Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。 JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文参考訳（メタデータ） (2024-03-28T02:44:02Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs [30.8029926520819]
大規模言語モデル(LLM)は入力シーケンスに基づいてテキストを生成するが、ジェイルブレイク攻撃には弱い。ジェイルブレイクプロンプトは、クエリに使用する元の質問よりも意味的に多様である。セマンティック・ミラー・ジェイルブレイク(SMJ)アプローチを導入し,従来の質問と意味的に類似したジェイルブレイクプロンプトを生成することでLCMをバイパスする手法を提案する。
論文参考訳（メタデータ） (2024-02-21T15:13:50Z)
A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文参考訳（メタデータ） (2024-02-15T18:58:09Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。