論文の概要: Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures
- arxiv url: http://arxiv.org/abs/2506.07402v1
- Date: Mon, 09 Jun 2025 03:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.799576
- Title: Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures
- Title(参考訳): 脱獄を乗り越える - LLMのセキュリティリスクはアライメントの失敗から防ぐ
- Authors: Yukai Zhou, Sibei Yang, Wenjie Wang,
- Abstract要約: 大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされ、セキュリティに対する懸念が高まっている。
ジェイルブレイク攻撃は、過度に有害なクエリの下での失敗を浮き彫りにするが、彼らは重大なリスクを見落としている。
我々は,高リスク領域を明らかにすることで,出力の事実性と入力の無害性に基づいて,構造化された二次的な視点でLLMリスク景観を体系的に再構築する。
- 参考スコア(独自算出の注目度): 17.9033567125575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in real-world applications, raising concerns about their security. While jailbreak attacks highlight failures under overtly harmful queries, they overlook a critical risk: incorrectly answering harmless-looking inputs can be dangerous and cause real-world harm (Implicit Harm). We systematically reformulate the LLM risk landscape through a structured quadrant perspective based on output factuality and input harmlessness, uncovering an overlooked high-risk region. To investigate this gap, we propose JailFlipBench, a benchmark aims to capture implicit harm, spanning single-modal, multimodal, and factual extension scenarios with diverse evaluation metrics. We further develop initial JailFlip attack methodologies and conduct comprehensive evaluations across multiple open-source and black-box LLMs, show that implicit harm present immediate and urgent real-world risks, calling for broader LLM safety assessments and alignment beyond conventional jailbreak paradigms.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされ、セキュリティに対する懸念が高まっている。
ジェイルブレイク攻撃は、過度に有害なクエリの下での障害を浮き彫りにするが、それらは重大なリスクを見落としている。
出力の事実性と入力の無害性に基づいて、構造化された二次的な視点でLLMリスク景観を体系的に再構成し、見落としている高リスク領域を明らかにする。
このギャップを調査するため,JailFlipBenchを提案する。このベンチマークは暗黙の害を捉え,単一モード,マルチモーダル,実例の拡張シナリオを多種多様な評価指標でカバーすることを目的としている。
さらに,複数のオープンソースおよびブラックボックスのLDMに対して,初期ジェイルフリップ攻撃手法を開発し,暗黙の害が即時かつ緊急の現実世界のリスクを生じさせ,従来型のジェイルブレイクパラダイムを超えて広い安全性評価とアライメントを求めることを示す。
関連論文リスト
- Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [20.154877919740322]
既存のjailbreakメソッドには、複雑なプロンプトエンジニアリングと反復最適化の2つの大きな制限がある。
本稿では,LLMの高度な推論能力を活用し,有害コンテンツを自律的に生成する効率的なジェイルブレイク攻撃手法であるAnalyzing-based Jailbreak(ABJ)を提案する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。