論文の概要: Quantifying LLM Safety Degradation Under Repeated Attacks Using Survival Analysis
- arxiv url: http://arxiv.org/abs/2605.12869v1
- Date: Wed, 13 May 2026 01:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.748874
- Title: Quantifying LLM Safety Degradation Under Repeated Attacks Using Survival Analysis
- Title(参考訳): 生存分析を用いた繰り返し攻撃によるLLMの安全性劣化の定量化
- Authors: Zvi Topol,
- Abstract要約: 大規模言語モデル(LLM)は、広範囲のアプリケーションにデプロイされる傾向にあるが、敵のジェイルブレイク攻撃には弱いままである。
本研究は, LLM脱獄の脆弱性を特徴付けるために生存分析技術を適用した新しい評価フレームワークを提案する。
提案手法は, リスク関数, 生存曲線, 攻撃の危険因子を推定し, 生存率としてジェイルブレイクをモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in a wide range of applications, yet remain vulnerable to adversarial jailbreak attacks that circumvent their safety guardrails. Existing evaluation frameworks typically report binary success/failure metrics, failing to capture the temporal dynamics of how attacks succeed under persistent adversarial pressure. This preliminary work proposes a novel evaluation framework that applies survival analysis techniques to characterize LLM jailbreak vuln`erability. Our approach models the time-to-jailbreak as a survival outcome, enabling estimation of hazard functions, survival curves, and risk factors associated with successful attacks. We evaluate three LLMs against a subset of prompts from the HarmBench dataset spanning three attack categories. Our analysis reveals that models exhibit distinct vulnerability profiles: while one model demonstrates rapid degradation under iterative attacks, the two other models show consistent moderate vulnerability. Our framework provides actionable insights for model and LLM application developers and establishes survival analysis as a rigorous methodology for LLM safety evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲のアプリケーションに展開されているが、安全ガードレールを回避できる敵のジェイルブレイク攻撃に弱いままである。
既存の評価フレームワークは通常、バイナリ成功/障害メトリクスを報告し、永続的な敵の圧力の下で攻撃が成功する際の時間的ダイナミクスを捉えていない。
この予備研究は, LLM脱獄の可能性を特徴付ける生存分析手法を応用した新しい評価フレームワークを提案する。
提案手法は, リスク関数, 生存曲線, 攻撃の危険因子を推定し, 生存率としてジェイルブレイクをモデル化する。
我々は3つの攻撃カテゴリにまたがるHarmBenchデータセットからのプロンプトのサブセットに対して3つのLSMを評価する。
1つのモデルが反復攻撃による急激な劣化を示す一方、他の2つのモデルは一貫した中程度の脆弱性を示す。
本フレームワークは, LLM の安全性評価のための厳密な手法として, モデルおよび LLM アプリケーション開発者に実用的な知見を提供し, 生存分析を確立する。
関連論文リスト
- SoK: Robustness in Large Language Models against Jailbreak Attacks [18.3385249246391]
大規模言語モデル(LLM)は目覚ましい成功を収めたが、ジェイルブレイク攻撃の影響を受けやすいままである。
このような攻撃は、現実世界のリスク、安全を損なうこと、信頼を損なうこと、高レベルのアプリケーションにおける規制の遵守を引き起こす。
本稿では,これらの手法を総合的に評価するための総合的多次元フレームワークであるSecurity Cubeを紹介する。
論文 参考訳(メタデータ) (2026-05-06T15:53:17Z) - GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing [13.267217024192535]
大規模言語モデル(LLMs)におけるジェイルブレイク攻撃の重大な脆弱性
本稿では,保護者LSMの状態に基づいてジェイルブレイクプロンプトを生成・改善する新しい評価プロトコルであるGuardValを紹介する。
このプロトコルを10の安全領域にわたるMistral-7bからGPT-4まで多様なモデルに適用する。
論文 参考訳(メタデータ) (2025-07-10T13:15:20Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - Robustness of Large Language Models Against Adversarial Attacks [5.312946761836463]
GPT LLMファミリーのロバスト性に関する総合的研究を報告する。
我々は2つの異なる評価手法を用いてレジリエンスを評価する。
実験により,これらのモデルのロバスト性は著しく変化し,文字レベルと意味レベルの両方の敵攻撃に対する脆弱性の程度が変化することが示された。
論文 参考訳(メタデータ) (2024-12-22T13:21:15Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks [23.782566331783134]
我々は3つのカテゴリ、61の特定の有害なカテゴリからの1525の質問、13の人気のあるLCMの10の最先端のジェイルブレイク戦略に焦点を当てた。
攻撃成功率(ASR)、毒性スコア(Toxicity Score)、Fluency(Fluency)、Token Length(Token Length)、文法エラー(Grammatical Errors)などの多次元指標を用いて、ジェイルブレイク下でのLLMのアウトプットを徹底的に評価する。
モデル,攻撃戦略,有害コンテンツの種類,および評価指標間の相関関係について検討し,多面的評価フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T01:58:03Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。