Fugu-MT 論文翻訳(概要): AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models

論文の概要: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models

arxiv url: http://arxiv.org/abs/2401.09002v2
Date: Tue, 13 Feb 2024 02:20:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 18:45:06.019338
Title: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
Title（参考訳）: AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法
Authors: Dong shu, Mingyu Jin, Suiyuan Zhu, Beichen Wang, Zihao Zhou, Chong Zhang, Yongfeng Zhang
Abstract要約: 我々は大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価するための新しいアプローチを開拓した。本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。我々は、ジェイルブレイクに特化された総合的な真実データセットを開発した。
参考スコア（独自算出の注目度）: 30.163002917288463
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In our research, we pioneer a novel approach to evaluate the effectiveness of jailbreak attacks on Large Language Models (LLMs), such as GPT-4 and LLaMa2, diverging from traditional robustness-focused binary evaluations. Our study introduces two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework, using a scoring range from 0 to 1, offers a unique perspective, enabling a more comprehensive and nuanced evaluation of attack effectiveness and empowering attackers to refine their attack prompts with greater understanding. Furthermore, we have developed a comprehensive ground truth dataset specifically tailored for jailbreak tasks. This dataset not only serves as a crucial benchmark for our current study but also establishes a foundational resource for future research, enabling consistent and comparative analyses in this evolving field. Upon meticulous comparison with traditional evaluation methods, we discovered that our evaluation aligns with the baseline's trend while offering a more profound and detailed assessment. We believe that by accurately evaluating the effectiveness of attack prompts in the Jailbreak task, our work lays a solid foundation for assessing a wider array of similar or even more complex tasks in the realm of prompt injection, potentially revolutionizing this field.
Abstract（参考訳）: 本研究では,GPT-4やLLaMa2のような大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価する新しい手法を考案し,従来のロバスト性に着目したバイナリ評価から逸脱した。本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。それぞれのフレームワークはスコアが0から1の範囲で、ユニークな視点を提供し、より包括的でニュアンスな攻撃効果の評価を可能にし、アタッカーにより深い理解で攻撃プロンプトを洗練させる。さらに,ジェイルブレイクタスク用に特別に調整した包括的基底真理データセットを開発した。このデータセットは、現在の研究にとって重要なベンチマークとなるだけでなく、将来の研究のための基礎的なリソースを確立し、この進化分野における一貫性と比較分析を可能にします。従来の評価手法と微妙に比較した結果,評価はベースラインの傾向と一致し,より深く詳細な評価が得られた。 Jailbreakタスクにおける攻撃プロンプトの有効性を正確に評価することで、当社の作業は、プロンプトインジェクションの領域において、より広い範囲の類似またはさらに複雑なタスクを評価するための確固たる基盤を築き、この分野に革命をもたらす可能性があると考えている。

関連論文リスト

SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models [17.94525181892254]
大規模言語モデル(LLM)は、様々な分野にまたがるサービスによって、現実世界のアプリケーションにとって急速に不可欠なものになっている。特にジェイルブレイクのプロンプトによって、モデルのアライメントを回避し、有害なアウトプットを誘導できる。定義、脅威モデル、評価基準は様々であり、体系的な進歩と公正な比較を妨げる。我々の研究は断片的な研究を統一し、将来の研究のための厳格な基盤を提供し、高度展開に適した堅牢で信頼性の高いLCMの開発を支援します。
論文参考訳（メタデータ） (2025-10-17T09:38:54Z)
Rectifying Privacy and Efficacy Measurements in Machine Unlearning: A New Inference Attack Perspective [42.003102851493885]
本稿では,不正確な未学習手法の評価において重要なギャップに対処するため,RULI (Rectified Unlearning Evaluation Framework via Likelihood Inference)を提案する。 RULIは、未学習の有効性とプライバシリスクをサンプルごとの粒度で測定するために、二重目的攻撃を導入している。既存の手法で過小評価されているプライバシーリスクを暴露し,最先端のアンラーニング手法の重大な脆弱性を明らかにした。
論文参考訳（メタデータ） (2025-06-16T00:30:02Z)
A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文参考訳（メタデータ） (2025-05-23T19:39:56Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文参考訳（メタデータ） (2024-11-20T10:41:23Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
MIBench: A Comprehensive Framework for Benchmarking Model Inversion Attack and Defense [42.56467639172508]
Model Inversion (MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシに敏感なトレーニングデータを再構築することを目的としている。我々は、モデル反転攻撃と防御の体系的評価のためのMIBenchという最初の実用的なベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-07T16:13:49Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文参考訳（メタデータ） (2024-06-10T18:57:22Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (2022-06-17T02:29:23Z)
Deep-Attack over the Deep Reinforcement Learning [26.272161868927004]
敵攻撃の開発により強化学習がより脆弱になった本研究は,実効性と盗聴を自然に考慮し,強化学習に基づく攻撃フレームワークを提案する。また,これらの2つの側面において,攻撃モデルの性能を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2022-05-02T10:58:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。