Fugu-MT 論文翻訳(概要): AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models

論文の概要: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models

arxiv url: http://arxiv.org/abs/2401.09002v4
Date: Wed, 31 Jul 2024 06:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 20:25:13.795241
Title: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
Title（参考訳）: AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法
Authors: Dong shu, Mingyu Jin, Chong Zhang, Liangyao Li, Zihao Zhou, Yongfeng Zhang,
Abstract要約: 本稿では,大規模言語モデルに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。我々は、ジェイルブレイクのプロンプトに特化して、総合的な真実データセットを開発する。
参考スコア（独自算出の注目度）: 29.92550386563915
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ensuring the security of large language models (LLMs) against attacks has become increasingly urgent, with jailbreak attacks representing one of the most sophisticated threats. To deal with such risks, we introduce an innovative framework that can help evaluate the effectiveness of jailbreak attacks on LLMs. Unlike traditional binary evaluations focusing solely on the robustness of LLMs, our method assesses the effectiveness of the attacking prompts themselves. We present two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework uses a scoring range from 0 to 1, offering unique perspectives and allowing for the assessment of attack effectiveness in different scenarios. Additionally, we develop a comprehensive ground truth dataset specifically tailored for jailbreak prompts. This dataset serves as a crucial benchmark for our current study and provides a foundational resource for future research. By comparing with traditional evaluation methods, our study shows that the current results align with baseline metrics while offering a more nuanced and fine-grained assessment. It also helps identify potentially harmful attack prompts that might appear harmless in traditional evaluations. Overall, our work establishes a solid foundation for assessing a broader range of attack prompts in the area of prompt injection.
Abstract（参考訳）: 大規模言語モデル(LLM)の攻撃に対するセキュリティの確保は、最も洗練された脅威の1つとして、ますます緊急になっている。このようなリスクに対処するため,我々はLDMに対するジェイルブレイク攻撃の有効性を評価する革新的な枠組みを導入する。 LLMのロバスト性にのみ焦点をあてた従来のバイナリ評価とは異なり、本手法は攻撃プロンプト自体の有効性を評価する。粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。各フレームワークは0から1までのスコアリング範囲を使用しており、ユニークな視点を提供し、異なるシナリオにおける攻撃の有効性を評価することができる。さらに,脱獄プロンプトに適した総合的真実データセットを開発した。このデータセットは、我々の現在の研究にとって重要なベンチマークとなり、将来の研究の基盤となるリソースを提供する。本研究は,従来の評価手法と比較して,より微妙できめ細かな評価を行いながら,現在の結果が基準値と一致していることを示す。また、従来の評価では無害に見える可能性のある、潜在的に有害な攻撃プロンプトを特定するのにも役立ちます。全体として、我々の研究は、即発注射領域における広範囲の攻撃プロンプトを評価するためのしっかりとした基盤を確立している。

関連論文リスト

SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models [17.94525181892254]
大規模言語モデル(LLM)は、様々な分野にまたがるサービスによって、現実世界のアプリケーションにとって急速に不可欠なものになっている。特にジェイルブレイクのプロンプトによって、モデルのアライメントを回避し、有害なアウトプットを誘導できる。定義、脅威モデル、評価基準は様々であり、体系的な進歩と公正な比較を妨げる。我々の研究は断片的な研究を統一し、将来の研究のための厳格な基盤を提供し、高度展開に適した堅牢で信頼性の高いLCMの開発を支援します。
論文参考訳（メタデータ） (2025-10-17T09:38:54Z)
Rectifying Privacy and Efficacy Measurements in Machine Unlearning: A New Inference Attack Perspective [42.003102851493885]
本稿では,不正確な未学習手法の評価において重要なギャップに対処するため,RULI (Rectified Unlearning Evaluation Framework via Likelihood Inference)を提案する。 RULIは、未学習の有効性とプライバシリスクをサンプルごとの粒度で測定するために、二重目的攻撃を導入している。既存の手法で過小評価されているプライバシーリスクを暴露し,最先端のアンラーニング手法の重大な脆弱性を明らかにした。
論文参考訳（メタデータ） (2025-06-16T00:30:02Z)
A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文参考訳（メタデータ） (2025-05-23T19:39:56Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文参考訳（メタデータ） (2024-11-20T10:41:23Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
MIBench: A Comprehensive Framework for Benchmarking Model Inversion Attack and Defense [42.56467639172508]
Model Inversion (MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシに敏感なトレーニングデータを再構築することを目的としている。我々は、モデル反転攻撃と防御の体系的評価のためのMIBenchという最初の実用的なベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-07T16:13:49Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文参考訳（メタデータ） (2024-06-10T18:57:22Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (2022-06-17T02:29:23Z)
Deep-Attack over the Deep Reinforcement Learning [26.272161868927004]
敵攻撃の開発により強化学習がより脆弱になった本研究は,実効性と盗聴を自然に考慮し,強化学習に基づく攻撃フレームワークを提案する。また,これらの2つの側面において,攻撃モデルの性能を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2022-05-02T10:58:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。