論文の概要: Probing the Robustness of Large Language Models Safety to Latent Perturbations
- arxiv url: http://arxiv.org/abs/2506.16078v1
- Date: Thu, 19 Jun 2025 07:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.971411
- Title: Probing the Robustness of Large Language Models Safety to Latent Perturbations
- Title(参考訳): 潜在摂動に対する大言語モデルの安全性のロバスト性を証明する
- Authors: Tianle Gu, Kexin Huang, Zongqi Wang, Yixu Wang, Jie Li, Yuanqi Yao, Yang Yao, Yujiu Yang, Yan Teng, Yingchun Wang,
- Abstract要約: 安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
- 参考スコア(独自算出の注目度): 30.16804362984161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment is a key requirement for building reliable Artificial General Intelligence. Despite significant advances in safety alignment, we observe that minor latent shifts can still trigger unsafe responses in aligned models. We argue that this stems from the shallow nature of existing alignment methods, which focus on surface-level refusal behaviors without sufficiently altering internal representations. Consequently, small shifts in hidden activations can re-trigger harmful behaviors embedded in the latent space. To explore the robustness of safety alignment to latent perturbations, we introduce a probing method that measures the Negative Log-Likelihood of the original response generated by the model. This probe quantifies local sensitivity in the latent space, serving as a diagnostic tool for identifying vulnerable directions. Based on this signal, we construct effective jailbreak trajectories, giving rise to the Activation Steering Attack (ASA). More importantly, these insights offer a principled foundation for improving alignment robustness. To this end, we introduce Layer-wise Adversarial Patch Training~(LAPT), a fine-tuning strategy that inject controlled perturbations into hidden representations during training. Experimental results highlight that LAPT strengthen alignment robustness without compromising general capabilities. Our findings reveal fundamental flaws in current alignment paradigms and call for representation-level training strategies that move beyond surface-level behavior supervision. Codes and results are available at https://github.com/Carol-gutianle/LatentSafety.
- Abstract(参考訳): 安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
安全アライメントの大幅な進歩にもかかわらず、小さな潜伏シフトは、整列モデルにおいて安全でない応答を引き起こす可能性があることを観察する。
既存のアライメント手法は, 内部表現を十分に変化させることなく, 表面レベルの拒絶行動に焦点をあてている。
その結果、隠れた活性化の小さな変化は、潜伏空間に埋め込まれた有害な振る舞いを再び引き起こすことができる。
潜在摂動に対する安全アライメントのロバスト性を検討するために,モデルが生成した元の応答の負対数類似度を測定する探索手法を提案する。
このプローブは潜伏空間における局所感度を定量化し、脆弱な方向を特定するための診断ツールとして機能する。
この信号に基づいて、有効なジェイルブレイク軌道を構築し、アクティベーションステアリングアタック(ASA)を発生させる。
さらに重要なのは、これらの洞察がアライメントの堅牢性を改善するための原則的な基盤を提供することです。
この目的のために、我々は、学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training~(LAPT)を導入する。
実験の結果,LAPTは汎用能力を損なうことなくアライメントロバスト性を強化した。
本研究は,現状のアライメントパラダイムの根本的な欠陥を明らかにするとともに,表層行動監視を超越した表現レベルのトレーニング戦略を求めるものである。
コードと結果はhttps://github.com/Carol-gutianle/LatentSafety.comで公開されている。
関連論文リスト
- Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safety Subspaces are Not Distinct: A Fine-Tuning Case Study [4.724646466332421]
安全関連行動が特定の部分空間に集中しているかを検討する。
安全を選択的に支配する部分空間の証拠は見つからない。
これは、サブスペースベースの防御が基本的な制限に直面していることを示唆している。
論文 参考訳(メタデータ) (2025-05-20T10:41:49Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Probing Latent Subspaces in LLM for AI Security: Identifying and Manipulating Adversarial States [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは、迅速な注射攻撃による脱獄のような敵の操作に弱いままである。
LLMから隠れた活性化を抽出し, 安全状態と脱獄状態の潜伏部分空間について検討した。
論文 参考訳(メタデータ) (2025-03-12T04:59:22Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。