論文の概要: SABER: Uncovering Vulnerabilities in Safety Alignment via Cross-Layer Residual Connection
- arxiv url: http://arxiv.org/abs/2509.16060v1
- Date: Fri, 19 Sep 2025 15:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.220064
- Title: SABER: Uncovering Vulnerabilities in Safety Alignment via Cross-Layer Residual Connection
- Title(参考訳): SABER: クロス層残差接続による安全アライメントの脆弱性発見
- Authors: Maithili Joshi, Palash Nandi, Tanmoy Chakraborty,
- Abstract要約: セーフアライメントトレーニングを備えた大規模言語モデル(LLM)は、堅牢な言語理解能力を備えた強力な機器である。
2つの中間層を$s$と$e$で接続し、残余接続を通じて$s e$と$e$を接続する新しいホワイトボックスジェイルブレイク手法であるSABERを導入する。
提案手法は,HarmBenchテストセット上での最高性能ベースラインよりも51%向上する。
- 参考スコア(独自算出の注目度): 16.38885847999291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) with safe-alignment training are powerful instruments with robust language comprehension capabilities. These models typically undergo meticulous alignment procedures involving human feedback to ensure the acceptance of safe inputs while rejecting harmful or unsafe ones. However, despite their massive scale and alignment efforts, LLMs remain vulnerable to jailbreak attacks, where malicious users manipulate the model to produce harmful outputs that it was explicitly trained to avoid. In this study, we find that the safety mechanisms in LLMs are predominantly embedded in the middle-to-late layers. Building on this insight, we introduce a novel white-box jailbreak method, SABER (Safety Alignment Bypass via Extra Residuals), which connects two intermediate layers $s$ and $e$ such that $s < e$, through a residual connection. Our approach achieves a 51% improvement over the best-performing baseline on the HarmBench test set. Furthermore, SABER induces only a marginal shift in perplexity when evaluated on the HarmBench validation set. The source code is publicly available at https://github.com/PalGitts/SABER.
- Abstract(参考訳): セーフアライメントトレーニングを備えた大規模言語モデル(LLM)は、堅牢な言語理解能力を備えた強力な機器である。
これらのモデルは通常、人間からのフィードバックを含む厳密なアライメント手順を実行し、有害または安全でない入力を拒否しながら、安全な入力の受け入れを保証する。
しかし、大規模かつアライメントの努力にもかかわらず、LLMはジェイルブレイク攻撃に弱いままであり、悪意のあるユーザーがモデルを操作して、避けるように明示的に訓練された有害な出力を生成する。
本研究では, LLMの安全性機構が中~後期層に主に埋め込まれていることを見出した。
この知見に基づいて、2つの中間層を$s$と$e$で接続し、残余接続を通じて$s < e$と$s < e$を接続する、新しいホワイトボックスジェイルブレイク手法であるSABER(Safety Alignment Bypass via Extra Residuals)を導入する。
提案手法は,HarmBenchテストセット上での最高性能ベースラインよりも51%向上する。
さらに、SABERはHarmBench検証セットで評価した場合、パープレキシティの限界シフトのみを誘導する。
ソースコードはhttps://github.com/PalGitts/SABERで公開されている。
関連論文リスト
- The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。