論文の概要: Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching
- arxiv url: http://arxiv.org/abs/2405.13820v1
- Date: Wed, 22 May 2024 16:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:05:13.695252
- Title: Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching
- Title(参考訳): 安全パッチによる大規模言語モデルの包括的かつ効率的な安全アライメントを目指して
- Authors: Weixiang Zhao, Yulin Hu, Zhuojun Li, Yang Deng, Yanyan Zhao, Bing Qin, Tat-Seng Chua,
- Abstract要約: textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
- 参考スコア(独自算出の注目度): 77.36097118561057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment of large language models (LLMs) has been gaining increasing attention. However, current safety-aligned LLMs suffer from the fragile and imbalanced safety mechanisms, which can still be induced to generate unsafe responses, exhibit over-safety by rejecting safe user inputs, and fail to preserve general utility after safety alignment. To this end, we propose a novel post safety alignment (PSA) method to address these inherent and emerging safety challenges, including safety enhancement, over-safety mitigation, and utility preservation. In specific, we introduce \textsc{SafePatching}, a novel framework for comprehensive and efficient PSA, where two distinct safety patches are developed on the harmful data to enhance safety and mitigate over-safety concerns, and then seamlessly integrated into the target LLM backbone without compromising its utility. Extensive experiments show that \textsc{SafePatching} achieves a more comprehensive and efficient PSA than baseline methods. It even enhances the utility of the backbone, further optimizing the balance between being helpful and harmless in current aligned LLMs. Also, \textsc{SafePatching} demonstrates its superiority in continual PSA scenarios.
- Abstract(参考訳): 大規模言語モデルの安全性向上 (LLM) が注目されている。
しかし、現在の安全対応LCMは脆弱で不均衡な安全機構に悩まされており、安全でない応答を生成するために誘導され、安全なユーザ入力を拒否することで過度に安全を示し、安全アライメント後の汎用性を維持できない。
そこで本稿では, 安全性向上, 過度な安全性軽減, 実用性保全など, これらの課題に対処するための新しい安全アライメント(PSA)手法を提案する。
具体的には,安全性を高め,過度な安全上の懸念を和らげるために2つの異なる安全パッチを有害データ上に開発し,その利便性を損なうことなく目的のLDMバックボーンにシームレスに統合する,包括的で効率的なPSAのための新しいフレームワークである‘textsc{SafePatching} を紹介する。
大規模な実験により, <textsc{SafePatching} はベースライン法よりも包括的で効率的なPSAを実現することが示された。
バックボーンの実用性も向上し、現在のLCMにおいて有用性と無害性のバランスを最適化する。
また、textsc{SafePatching} は連続的なPSAシナリオにおいてその優位性を示す。
関連論文リスト
- Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は、平均的な安全制約をより厳密な(即時)安全制約に置き換える、textbfRectified Policy Optimization (RePO)を提案する。
RePOの中核は、すべてのプロンプトの厳格な安全違反を罰する修正されたポリシー勾配によって駆動されるポリシー更新メカニズムである。
我々のAlpaca-7B実験は,RePOが安全アライメントを改善し,基準法に比べて安全性の干渉を低減することを実証した。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models [5.6874111521946356]
安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示す。
文脈適応型デコード型安全アライメント戦略であるSafeInferを提案する。
HarmEvalは、広範な安全性評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-06-18T05:03:23Z) - Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。
異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。
実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T17:48:13Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。