論文の概要: Superficial Safety Alignment Hypothesis
- arxiv url: http://arxiv.org/abs/2410.10862v1
- Date: Mon, 07 Oct 2024 19:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:11:18.613831
- Title: Superficial Safety Alignment Hypothesis
- Title(参考訳): 表面安全アライメント仮説
- Authors: Jianwei Li, Jung-Eun Kim,
- Abstract要約: 本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
- 参考スコア(独自算出の注目度): 8.297367440457508
- License:
- Abstract: As large language models (LLMs) are overwhelmingly more and more integrated into various applications, ensuring they generate safe and aligned responses is a pressing need. Previous research on alignment has largely focused on general instruction-following but has often overlooked the unique properties and challenges of safety alignment, such as the brittleness of safety mechanisms. To bridge the gap, we propose the Superficial Safety Alignment Hypothesis (SSAH), which posits that safety alignment should teach an otherwise unsafe model to choose the correct reasoning direction - interpreted as a specialized binary classification task - and incorporate a refusal mechanism with multiple reserved fallback options. Furthermore, through SSAH, we hypothesize that safety guardrails in LLMs can be established by just a small number of essential components. To verify this, we conduct an ablation study and successfully identify four types of attribute-critical components in safety-aligned LLMs: Exclusive Safety Unit (ESU), Exclusive Utility Unit (EUU), Complex Unit (CU), and Redundant Unit (RU). Our findings show that freezing certain safety-critical components 7.5\% during fine-tuning allows the model to retain its safety attributes while adapting to new tasks. Additionally, we show that leveraging redundant units 20\% in the pre-trained model as an ``alignment budget'' can effectively minimize the alignment tax while achieving the alignment goal. All considered, this paper concludes that the atomic functional unit for safety in LLMs is at the neuron level and underscores that safety alignment should not be complicated. We believe this work contributes to the foundation of efficient and scalable safety alignment for future LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなアプリケーションに圧倒的に統合されているため、安全で整合性のある応答を生成することが、非常に必要なのです。
これまでのアライメントの研究は、一般的なインストラクションフォローに主に焦点を合わせてきたが、安全機構の脆さなど、安全アライメントの独特な性質や課題を見落としていることが多い。
このギャップを埋めるため,SSAH(Superficial Safety Alignment hypothesis)を提案する。この仮説は,安全アライメントが安全でないモデルに適切な推論方向(特別な二項分類タスクとして解釈される)を選択するように教えるべきであり,複数の予備的なフォールバックオプションを備えた拒絶機構を組み込むものである。
さらに, SSAH を用いて, LLM の安全ガードレールは, 少数の必須部品で構築できるという仮説を立てた。
これを検証するため,我々は,排他的安全ユニット(ESU),排他的実用ユニット(EUU),複合ユニット(CU),冗長ユニット(RU)の4種類の属性クリティカルな要素をアブレーションで同定した。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しながら,その安全性特性を維持できることを示した。
さらに,事前学習モデルの冗長単位を「調整予算」として活用することで,アライメント目標を達成するとともに,アライメント税を効果的に最小化できることを示す。
本研究は、LLMの安全性のための原子機能ユニットがニューロンレベルであり、安全アライメントが複雑でないことを裏付けるものである。
我々は,この研究が将来のLLMの効率的でスケーラブルな安全アライメントの基盤となると信じている。
関連論文リスト
- On the Role of Attention Heads in Large Language Model Safety [64.51534137177491]
大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。
モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:08:06Z) - Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。
我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:38:01Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
内部パラメータは、悪意のないバックドアや通常のデータで微調整された場合、セキュリティの劣化に対して脆弱である。
モデルの中心にある,悪意のあるクエリと通常のクエリを区別する上で重要な,連続的なレイヤの小さなセットを同定する。
そこで本稿では,セキュリティの劣化に対処するために,安全性層の勾配を補正する新しいファインチューニング手法であるSPPFTを提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - A safety realignment framework via subspace-oriented model fusion for large language models [22.588716190505963]
サブスペース指向モデル融合(SOMF)による安全性向上フレームワークを提案する。
我々のアプローチは、各微調整されたモデルの重みから全てのタスクベクトルを遠ざけることから始まる。
次に,これらのベクトル内の安全関連領域をサブスペースマスキング手法により同定する。
論文 参考訳(メタデータ) (2024-05-15T03:04:05Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。