論文の概要: On the Role of Attention Heads in Large Language Model Safety
- arxiv url: http://arxiv.org/abs/2410.13708v1
- Date: Thu, 17 Oct 2024 16:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:23:12.661479
- Title: On the Role of Attention Heads in Large Language Model Safety
- Title(参考訳): 大規模言語モデル安全性における注意頭の役割について
- Authors: Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Kun Wang, Yang Liu, Junfeng Fang, Yongbin Li,
- Abstract要約: 大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。
モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
- 参考スコア(独自算出の注目度): 64.51534137177491
- License:
- Abstract: Large language models (LLMs) achieve state-of-the-art performance on multiple language tasks, yet their safety guardrails can be circumvented, leading to harmful generations. In light of this, recent research on safety mechanisms has emerged, revealing that when safety representations or component are suppressed, the safety capability of LLMs are compromised. However, existing research tends to overlook the safety impact of multi-head attention mechanisms, despite their crucial role in various model functionalities. Hence, in this paper, we aim to explore the connection between standard attention mechanisms and safety capability to fill this gap in the safety-related mechanistic interpretability. We propose a novel metric which tailored for multi-head attention, the Safety Head ImPortant Score (Ships), to assess the individual heads' contributions to model safety. Based on this, we generalize Ships to the dataset level and further introduce the Safety Attention Head AttRibution Algorithm (Sahara) to attribute the critical safety attention heads inside the model. Our findings show that the special attention head has a significant impact on safety. Ablating a single safety head allows aligned model (e.g., Llama-2-7b-chat) to respond to 16 times more harmful queries, while only modifying 0.006% of the parameters, in contrast to the ~ 5% modification required in previous studies. More importantly, we demonstrate that attention heads primarily function as feature extractors for safety and models fine-tuned from the same base model exhibit overlapping safety heads through comprehensive experiments. Together, our attribution approach and findings provide a novel perspective for unpacking the black box of safety mechanisms within large models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避でき、有害な世代を生み出す。
これを踏まえて、近年の安全機構の研究が行われ、安全表現やコンポーネントが抑制されると、LCMの安全性能力が損なわれることが判明した。
しかしながら、既存の研究は、様々なモデル機能において重要な役割を担っているにもかかわらず、マルチヘッドアテンション機構の安全性への影響を見逃す傾向にある。
そこで,本稿では,標準的な注意機構と安全能力の関連性を探究し,安全に関する機械的解釈可能性のギャップを埋めることを目的とする。
モデル安全への個人的貢献を評価するため,マルチヘッド注意のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
これに基づいて、船をデータセットレベルに一般化し、さらにモデル内の重要な安全注意点の属性として、安全注意頭部属性アルゴリズム(Sahara)を導入します。
以上の結果から,特別な注意の頭が安全性に重大な影響を与えていることが示唆された。
単一の安全ヘッドを非難することで、16倍の有害なクエリに対してアライメントモデル(例えばLlama-2-7b-chat)が応答でき、パラメータの0.006%のみが修正される。
より重要なことは、アテンションヘッドが主に安全のための特徴抽出器として機能し、同じベースモデルから微調整されたモデルが、包括的な実験を通して、重なり合う安全ヘッドを示すことを示すことである。
我々の帰属的アプローチと発見は、大きなモデル内での安全機構のブラックボックスを解き放つための新しい視点を提供する。
関連論文リスト
- Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
内部パラメータは、悪意のないバックドアや通常のデータで微調整された場合、セキュリティの劣化に対して脆弱である。
モデルの中心にある,悪意のあるクエリと通常のクエリを区別する上で重要な,連続的なレイヤの小さなセットを同定する。
そこで本稿では,セキュリティの劣化に対処するために,安全性層の勾配を補正する新しいファインチューニング手法であるSPPFTを提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards [4.0645651835677565]
我々は、既に緩和されたバイアスのモデルを評価することにより、安全対策の有効性を検討する。
非有毒なプロンプトのセットを作成し、それをLlamaモデルの評価に用いる。
安全と健康のトレードオフは、サービス品質の害につながる可能性のある特定の人口集団にとってより顕著である。
論文 参考訳(メタデータ) (2024-03-20T00:22:38Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving [7.355977594790584]
自律運転における3次元物体検出器の安全性指向性能について考察する。
本稿では,単純だが重要な局所化要件を特徴付ける空間的制約 (USC) について述べる。
既存のモデルに対する安全性指向の微調整を可能にするために,定量的な測定値を共通損失関数に組み込む。
論文 参考訳(メタデータ) (2022-09-21T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。