Fugu-MT 論文翻訳(概要): On the Role of Attention Heads in Large Language Model Safety

論文の概要: On the Role of Attention Heads in Large Language Model Safety

arxiv url: http://arxiv.org/abs/2410.13708v2
Date: Mon, 24 Feb 2025 13:31:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 18:15:43.191531
Title: On the Role of Attention Heads in Large Language Model Safety
Title（参考訳）: 大規模言語モデル安全性における注意頭の役割について
Authors: Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Kun Wang, Yang Liu, Junfeng Fang, Yongbin Li,
Abstract要約: 大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
参考スコア（独自算出の注目度）: 64.51534137177491
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) achieve state-of-the-art performance on multiple language tasks, yet their safety guardrails can be circumvented, leading to harmful generations. In light of this, recent research on safety mechanisms has emerged, revealing that when safety representations or component are suppressed, the safety capability of LLMs are compromised. However, existing research tends to overlook the safety impact of multi-head attention mechanisms, despite their crucial role in various model functionalities. Hence, in this paper, we aim to explore the connection between standard attention mechanisms and safety capability to fill this gap in the safety-related mechanistic interpretability. We propose a novel metric which tailored for multi-head attention, the Safety Head ImPortant Score (Ships), to assess the individual heads' contributions to model safety. Based on this, we generalize Ships to the dataset level and further introduce the Safety Attention Head AttRibution Algorithm (Sahara) to attribute the critical safety attention heads inside the model. Our findings show that the special attention head has a significant impact on safety. Ablating a single safety head allows aligned model (e.g., Llama-2-7b-chat) to respond to 16 times more harmful queries, while only modifying 0.006% of the parameters, in contrast to the ~ 5% modification required in previous studies. More importantly, we demonstrate that attention heads primarily function as feature extractors for safety and models fine-tuned from the same base model exhibit overlapping safety heads through comprehensive experiments. Together, our attribution approach and findings provide a novel perspective for unpacking the black box of safety mechanisms within large models.
Abstract（参考訳）: 大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避でき、有害な世代を生み出す。これを踏まえて、近年の安全機構の研究が行われ、安全表現やコンポーネントが抑制されると、LCMの安全性能力が損なわれることが判明した。しかしながら、既存の研究は、様々なモデル機能において重要な役割を担っているにもかかわらず、マルチヘッドアテンション機構の安全性への影響を見逃す傾向にある。そこで,本稿では,標準的な注意機構と安全能力の関連性を探究し,安全に関する機械的解釈可能性のギャップを埋めることを目的とする。モデル安全への個人的貢献を評価するため,マルチヘッド注意のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。これに基づいて、船をデータセットレベルに一般化し、さらにモデル内の重要な安全注意点の属性として、安全注意頭部属性アルゴリズム(Sahara)を導入します。以上の結果から,特別な注意の頭が安全性に重大な影響を与えていることが示唆された。単一の安全ヘッドを非難することで、16倍の有害なクエリに対してアライメントモデル(例えばLlama-2-7b-chat)が応答でき、パラメータの0.006%のみが修正される。より重要なことは、アテンションヘッドが主に安全のための特徴抽出器として機能し、同じベースモデルから微調整されたモデルが、包括的な実験を通して、重なり合う安全ヘッドを示すことを示すことである。我々の帰属的アプローチと発見は、大きなモデル内での安全機構のブラックボックスを解き放つための新しい視点を提供する。

関連論文リスト

Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文参考訳（メタデータ） (2026-01-31T13:06:11Z)
DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文参考訳（メタデータ） (2025-10-12T23:21:34Z)
Safety Alignment Should Be Made More Than Just A Few Attention Heads [28.977007906005813]
安全関連行動の分散符号化を促進するための新しいトレーニング戦略であるAHDを提案する。実験の結果,AHDはより注意を向ける安全関連機能を分散させることに成功した。
論文参考訳（メタデータ） (2025-08-27T09:06:28Z)
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。 LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文参考訳（メタデータ） (2025-05-22T03:46:03Z)
Hierarchical Safety Realignment: Lightweight Restoration of Safety in Pruned Large Vision-Language Models [33.04480683669939]
階層型安全実現(HSR)という,新規で軽量なアプローチを提案する。 HSRはまず、それぞれの注意ヘッドの安全への貢献を定量化し、最も重要なものを同定し、選択的に神経細胞を復元する。我々は,HSRを各種モデルおよびプルーニング戦略で検証し,安全性能の顕著な改善を継続的に達成した。
論文参考訳（メタデータ） (2025-05-22T01:06:28Z)
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [30.774446187857475]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文参考訳（メタデータ） (2025-05-10T06:59:36Z)
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文参考訳（メタデータ） (2025-02-18T09:06:07Z)
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文参考訳（メタデータ） (2025-02-04T09:31:54Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models [9.318094073527563]
大規模視覚言語モデル(LVLM)の内部アクティベーションは、異なる攻撃に対して悪意のあるプロンプトを識別することができる。この固有の安全性の認識は、私たちが安全の頭と呼ぶ、まばらな注意の頭によって支配されている」。これらの安全ヘッドを配置し、それらのアクティベーションを連結することにより、単純だが強力な悪意のあるプロンプト検出器を構築する。
論文参考訳（メタデータ） (2025-01-03T07:01:15Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文参考訳（メタデータ） (2024-10-07T19:53:35Z)
Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
内部パラメータは、悪意のないバックドアや通常のデータで微調整された場合、セキュリティの劣化に対して脆弱である。モデルの中心にある,悪意のあるクエリと通常のクエリを区別する上で重要な,連続的なレイヤの小さなセットを同定する。そこで本稿では,セキュリティの劣化に対処するために,安全性層の勾配を補正する新しいファインチューニング手法であるSPPFTを提案する。
論文参考訳（メタデータ） (2024-08-30T04:35:59Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons [57.07507194465299]
大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤報を発生させるなどの安全性リスクが生じる。安全行動の責任を負うLLM内の安全ニューロンの同定と解析に焦点をあてる。モデル安全性に対する因果的影響を評価するために,これらのニューロンの特定と動的アクティベーションパッチを対比した推論時アクティベーションを提案する。
論文参考訳（メタデータ） (2024-06-20T09:35:22Z)
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文参考訳（メタデータ） (2024-05-27T17:31:56Z)
From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards [4.0645651835677565]
我々は、既に緩和されたバイアスのモデルを評価することにより、安全対策の有効性を検討する。非有毒なプロンプトのセットを作成し、それをLlamaモデルの評価に用いる。安全と健康のトレードオフは、サービス品質の害につながる可能性のある特定の人口集団にとってより顕著である。
論文参考訳（メタデータ） (2024-03-20T00:22:38Z)
Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文参考訳（メタデータ） (2023-02-18T09:32:55Z)
USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving [7.355977594790584]
自律運転における3次元物体検出器の安全性指向性能について考察する。本稿では,単純だが重要な局所化要件を特徴付ける空間的制約 (USC) について述べる。既存のモデルに対する安全性指向の微調整を可能にするために,定量的な測定値を共通損失関数に組み込む。
論文参考訳（メタデータ） (2022-09-21T14:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。