論文の概要: Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?
- arxiv url: http://arxiv.org/abs/2512.24044v1
- Date: Tue, 30 Dec 2025 07:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.312772
- Title: Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?
- Title(参考訳): 脱獄攻撃 vs. コンテンツ安全性フィルター: LLMの安全兵器競争はどこまで続くのか?
- Authors: Yuan Xin, Dingfan Chen, Linyi Yang, Michael Backes, Xiao Zhang,
- Abstract要約: 大規模言語モデル(LLM)を対象としたジェイルブレイク攻撃の最初の体系的評価について述べる。
以上の結果から,これらの攻撃の実際的成功を事前評価が過大評価した可能性が示唆された。
保護とユーザエクスペリエンスをさらに最適化するために、リコールと精度のバランスを改善する余地は残っています。
- 参考スコア(独自算出の注目度): 35.085164240720815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed, ensuring their safe use is paramount. Jailbreaking, adversarial prompts that bypass model alignment to trigger harmful outputs, present significant risks, with existing studies reporting high success rates in evading common LLMs. However, previous evaluations have focused solely on the models, neglecting the full deployment pipeline, which typically incorporates additional safety mechanisms like content moderation filters. To address this gap, we present the first systematic evaluation of jailbreak attacks targeting LLM safety alignment, assessing their success across the full inference pipeline, including both input and output filtering stages. Our findings yield two key insights: first, nearly all evaluated jailbreak techniques can be detected by at least one safety filter, suggesting that prior assessments may have overestimated the practical success of these attacks; second, while safety filters are effective in detection, there remains room to better balance recall and precision to further optimize protection and user experience. We highlight critical gaps and call for further refinement of detection accuracy and usability in LLM safety systems.
- Abstract(参考訳): 大きな言語モデル(LLM)がますますデプロイされるにつれて、安全な使用が最優先される。
脱獄は、有害なアウトプットを誘発するためにモデルアライメントをバイパスし、重大なリスクを生じさせ、既存の研究は、一般的なLCMを回避する上で高い成功率を報告している。
しかしながら、以前の評価では、コンテンツモデレーションフィルタのような追加の安全メカニズムを含む、完全なデプロイメントパイプラインを無視して、モデルのみに重点を置いていた。
このギャップに対処するために,LLM安全アライメントをターゲットとしたジェイルブレイク攻撃を初めて体系的に評価し,入力と出力の両方のフィルタリング段階を含む完全な推論パイプラインでの成功を評価する。
第1に,少なくとも1つの安全フィルタによってほぼすべてのジェイルブレイク技術が検出可能であること,第2に,安全フィルタが検出に有効である一方で,リコールと精度を向上し,保護とユーザエクスペリエンスをさらに最適化する余地が残っていること,などが示唆された。
我々は、LLMの安全性システムにおいて、重要なギャップを強調し、検出精度とユーザビリティのさらなる改善を求める。
関連論文リスト
- SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - Context Misleads LLMs: The Role of Context Filtering in Maintaining Safe Alignment of LLMs [7.183743839410718]
悪意のあるユーザは、しばしば敵の文脈を利用して、大規模言語モデル(LLM)を欺く。
本研究では,コンテキストフィルタリングモデルと呼ばれる新しい防御機構を提案する。
我々のモデルは、ジェイルブレイク攻撃の攻撃成功率を最大88%下げる能力を示している。
論文 参考訳(メタデータ) (2025-08-09T02:37:59Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。