論文の概要: On the Role of Attention Heads in Large Language Model Safety
- arxiv url: http://arxiv.org/abs/2410.13708v2
- Date: Mon, 24 Feb 2025 13:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:51:18.035726
- Title: On the Role of Attention Heads in Large Language Model Safety
- Title(参考訳): 大規模言語モデル安全性における注意頭の役割について
- Authors: Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Kun Wang, Yang Liu, Junfeng Fang, Yongbin Li,
- Abstract要約: 大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。
モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
- 参考スコア(独自算出の注目度): 64.51534137177491
- License:
- Abstract: Large language models (LLMs) achieve state-of-the-art performance on multiple language tasks, yet their safety guardrails can be circumvented, leading to harmful generations. In light of this, recent research on safety mechanisms has emerged, revealing that when safety representations or component are suppressed, the safety capability of LLMs are compromised. However, existing research tends to overlook the safety impact of multi-head attention mechanisms, despite their crucial role in various model functionalities. Hence, in this paper, we aim to explore the connection between standard attention mechanisms and safety capability to fill this gap in the safety-related mechanistic interpretability. We propose a novel metric which tailored for multi-head attention, the Safety Head ImPortant Score (Ships), to assess the individual heads' contributions to model safety. Based on this, we generalize Ships to the dataset level and further introduce the Safety Attention Head AttRibution Algorithm (Sahara) to attribute the critical safety attention heads inside the model. Our findings show that the special attention head has a significant impact on safety. Ablating a single safety head allows aligned model (e.g., Llama-2-7b-chat) to respond to 16 times more harmful queries, while only modifying 0.006% of the parameters, in contrast to the ~ 5% modification required in previous studies. More importantly, we demonstrate that attention heads primarily function as feature extractors for safety and models fine-tuned from the same base model exhibit overlapping safety heads through comprehensive experiments. Together, our attribution approach and findings provide a novel perspective for unpacking the black box of safety mechanisms within large models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避でき、有害な世代を生み出す。
これを踏まえて、近年の安全機構の研究が行われ、安全表現やコンポーネントが抑制されると、LCMの安全性能力が損なわれることが判明した。
しかしながら、既存の研究は、様々なモデル機能において重要な役割を担っているにもかかわらず、マルチヘッドアテンション機構の安全性への影響を見逃す傾向にある。
そこで,本稿では,標準的な注意機構と安全能力の関連性を探究し,安全に関する機械的解釈可能性のギャップを埋めることを目的とする。
モデル安全への個人的貢献を評価するため,マルチヘッド注意のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
これに基づいて、船をデータセットレベルに一般化し、さらにモデル内の重要な安全注意点の属性として、安全注意頭部属性アルゴリズム(Sahara)を導入します。
以上の結果から,特別な注意の頭が安全性に重大な影響を与えていることが示唆された。
単一の安全ヘッドを非難することで、16倍の有害なクエリに対してアライメントモデル(例えばLlama-2-7b-chat)が応答でき、パラメータの0.006%のみが修正される。
より重要なことは、アテンションヘッドが主に安全のための特徴抽出器として機能し、同じベースモデルから微調整されたモデルが、包括的な実験を通して、重なり合う安全ヘッドを示すことを示すことである。
我々の帰属的アプローチと発見は、大きなモデル内での安全機構のブラックボックスを解き放つための新しい視点を提供する。
関連論文リスト
- The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models [9.318094073527563]
大規模視覚言語モデル(LVLM)の内部アクティベーションは、異なる攻撃に対して悪意のあるプロンプトを識別することができる。
この固有の安全性の認識は、私たちが安全の頭と呼ぶ、まばらな注意の頭によって支配されている」。
これらの安全ヘッドを配置し、それらのアクティベーションを連結することにより、単純だが強力な悪意のあるプロンプト検出器を構築する。
論文 参考訳(メタデータ) (2025-01-03T07:01:15Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving [7.355977594790584]
自律運転における3次元物体検出器の安全性指向性能について考察する。
本稿では,単純だが重要な局所化要件を特徴付ける空間的制約 (USC) について述べる。
既存のモデルに対する安全性指向の微調整を可能にするために,定量的な測定値を共通損失関数に組み込む。
論文 参考訳(メタデータ) (2022-09-21T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。