論文の概要: Understanding the Effects of Safety Unalignment on Large Language Models
- arxiv url: http://arxiv.org/abs/2604.02574v1
- Date: Thu, 02 Apr 2026 23:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.240773
- Title: Understanding the Effects of Safety Unalignment on Large Language Models
- Title(参考訳): 大規模言語モデルにおける安全アライメントの効果の理解
- Authors: John T. Halloran,
- Abstract要約: そこで本研究では,様々なサイズの6つのLLMが,悪意ある,良心的なタスクに及ぼした影響について検討する。
JTとは対照的に、WOアンアライメントモデルの大多数は幻覚の傾向が低く、元の自然言語のパフォーマンスをより良く保ち、最先端の敵攻撃やサイバー攻撃においてより効果的である。
- 参考スコア(独自算出の注目度): 0.5076419064097732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment has become a critical step to ensure LLMs refuse harmful requests while providing helpful and harmless responses. However, despite the ubiquity of safety alignment for deployed frontier models, two separate lines of recent work--jailbreak-tuning (JT) and weight orthogonalization (WO)--have shown that safety guardrails may be largely disabled, resulting in LLMs which comply with harmful requests they would normally refuse. In spite of far-reaching safety implications, analysis has largely been limited to refusal rates of each unalignment method in isolation, leaving their relative effects on adversarial LLM capabilities unknown. To fill this gap, we study the impact of unaligning six popular LLMs of various sizes across a large number of malicious and benign tasks, using both JT and WO. Across the evaluated models, we show that while refusal degradation is split between the two methods, WO produces LLMs far more capable of aiding in malicious activity; in contrast to JT, the majority of WO unaligned models are far less prone to hallucinations, better retain their original natural-language performance, and are more effective at state-of-the-art adversarial and cyber attacks. To thus help mitigate the malicious risks of WO unalignment, we conclude by showing that supervised fine-tuning effectively limits the adversarial attack abilities enabled by WO, without drastically affecting hallucination rates or natural language performance.
- Abstract(参考訳): 安全アライメントは、LLMが有害な要求を拒否し、有用で無害な応答を提供するための重要なステップとなっている。
しかしながら、配備されたフロンティアモデルに対する安全アライメントの多様さにもかかわらず、最近の2つの作業ライン、すなわちジェイルブレイクチューニング(JT)とウェイト直交化(WO)は、安全ガードレールが大部分が無効であることを示し、その結果、通常拒否される有害な要求に準拠するLLMが実現した。
広範囲にわたる安全性への影響にもかかわらず、分析は大半が無調整法の拒絶率に限られており、敵のLDM能力に対する相対的な影響は分かっていない。
このギャップを埋めるために, JT と WO の両方を用いて, 多数の悪意ある, 良心的なタスクにまたがる, 様々なサイズの6つの人気のある LLM をアンアライン化することの影響について検討した。
JTとは対照的に、WOの非整合モデルの大多数は幻覚の傾向が低く、本来の自然言語性能を保ち、最先端の敵攻撃やサイバー攻撃においてより効果的である。
そこで我々は,WOアンアライメントの悪意あるリスクを軽減するために,教師による微調整が,幻覚率や自然言語性能に大きな影響を及ぼすことなく,WOによって実現される敵の攻撃能力を効果的に制限することを示し,その結論を導いた。
関連論文リスト
- Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation [23.989016366701232]
大きな言語モデルには安全性の脆弱性がある。
モデル安全性の改善は、しばしば過度に拒絶されるコストがかかる。
LLMの安全性表現を介入することで過度な拒絶を緩和するMOSRを提案する。
論文 参考訳(メタデータ) (2025-11-24T11:38:53Z) - SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。
ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。
我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。