論文の概要: Noise Injection Systemically Degrades Large Language Model Safety Guardrails
- arxiv url: http://arxiv.org/abs/2505.13500v1
- Date: Fri, 16 May 2025 01:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.341246
- Title: Noise Injection Systemically Degrades Large Language Model Safety Guardrails
- Title(参考訳): 大規模言語モデル安全ガードレールの騒音注入方式
- Authors: Prithviraj Singh Shahani, Matthias Scheutz,
- Abstract要約: 大規模言語モデル(LLM)の安全ガードレールは有害な出力を防ぐ重要な要素である。
本稿では,モデルアクティベーションにノイズを系統的に注入することにより,LLMの安全性向上のロバスト性について検討する。
- 参考スコア(独自算出の注目度): 6.841549440317724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety guardrails in large language models (LLMs) are a critical component in preventing harmful outputs. Yet, their resilience under perturbation remains poorly understood. In this paper, we investigate the robustness of safety fine-tuning in LLMs by systematically injecting Gaussian noise into model activations. We show across multiple open-weight models that (1) Gaussian noise raises harmful-output rates (p < 0.001) by up to 27%, (2) that deeper safety fine-tuning affords no extra protection, and (3) that chain-of-thought reasoning remains largely intact. The findings reveal critical vulnerabilities in current safety alignment techniques and highlight the potential of reasoning-based and reinforcement learning approaches as promising direction for developing more robust AI safety systems. These results have important implications for real-world deployment of LLMs in safety-critical applications as these results imply that widely-deployed safety tuning methods can fail even without adversarial prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全ガードレールは有害な出力を防ぐ重要な要素である。
しかし、彼らの摂動下での弾力性はいまだによく理解されていない。
本稿では, モデルアクティベーションにガウス雑音を系統的に注入することにより, LLMの安全微調整の堅牢性について検討する。
我々は,(1)ガウスノイズは有害出力率(p < 0.001)を最大27%上昇させ,(2)より深い安全チューニングでは余分な保護が得られず,(3)チェーン・オブ・シークレットの推論がほとんど無傷であることを示す。
この発見は、現在の安全アライメント技術の重大な脆弱性を明らかにし、より堅牢なAI安全システムを開発するための有望な方向として、推論ベースの強化学習アプローチの可能性を強調している。
これらの結果は, LLMの現実的な展開に重要な意味を持ち, 広く展開されている安全チューニング手法が, 敵のプロンプトを使わずに失敗する可能性があることを示唆している。
関連論文リスト
- Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。