Fugu-MT 論文翻訳(概要): Safety Layers of Aligned Large Language Models: The Key to LLM Security

論文の概要: Safety Layers of Aligned Large Language Models: The Key to LLM Security

arxiv url: http://arxiv.org/abs/2408.17003v1
Date: Fri, 30 Aug 2024 04:35:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 16:29:13.318609
Title: Safety Layers of Aligned Large Language Models: The Key to LLM Security
Title（参考訳）: 大規模言語モデルの安全性レイヤ - LLMセキュリティの鍵
Authors: Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li,
Abstract要約: 内部パラメータは、非悪意なバックドアデータや通常のデータで微調整された場合、モデルセキュリティを保持する。そこで本稿では,セキュリティの劣化に対処するために,安全性層の勾配を補正する新しいファインチューニング手法であるSPPFTを提案する。実験により,本手法は性能を保ちながらモデルセキュリティを著しく保ち,完全微調整に比べて計算資源の削減を図っている。
参考スコア（独自算出の注目度）: 43.805905164456846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aligned LLMs are highly secure, capable of recognizing and refusing to answer malicious questions. However, the role of internal parameters in maintaining this security is not well understood, further these models are vulnerable to security degradation when fine-tuned with non-malicious backdoor data or normal data. To address these challenges, our work uncovers the mechanism behind security in aligned LLMs at the parameter level, identifying a small set of contiguous layers in the middle of the model that are crucial for distinguishing malicious queries from normal ones, referred to as "safety layers." We first confirm the existence of these safety layers by analyzing variations in input vectors within the model's internal layers. Additionally, we leverage the over-rejection phenomenon and parameters scaling analysis to precisely locate the safety layers. Building on this understanding, we propose a novel fine-tuning approach, Safely Partial-Parameter Fine-Tuning (SPPFT), that fixes the gradient of the safety layers during fine-tuning to address the security degradation. Our experiments demonstrate that this approach significantly preserves model security while maintaining performance and reducing computational resources compared to full fine-tuning.
Abstract（参考訳）: LLMは高度に安全であり、悪意のある質問を認識し、拒否することができる。しかし、このセキュリティ維持における内部パラメータの役割はよく理解されておらず、さらにこれらのモデルは、悪意のないバックドアデータや通常のデータで微調整された場合、セキュリティ劣化に対して脆弱である。これらの課題に対処するため、我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、"セーフティ・レイヤ"と呼ばれる、悪意のあるクエリと通常のクエリを区別するために不可欠な、モデルの中央にある小さな連続した層を識別する。まず、モデルの内部層内の入力ベクトルの変動を分析することにより、これらの安全層の存在を確かめる。さらに、オーバーリジェクション現象とパラメータスケーリング分析を利用して、安全層を正確に特定する。この理解に基づいて, 安全部分パラメータ細調整法 (SPPFT) を提案する。実験により,本手法は性能を保ちながらモデルセキュリティを著しく保ち,完全微調整に比べて計算資源の削減を図っている。

関連論文リスト

Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment [24.364891513019444]
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
論文参考訳（メタデータ） (2025-07-24T17:59:24Z)
Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文参考訳（メタデータ） (2025-06-20T17:57:12Z)
LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。 LoXは攻撃成功率を11%から54%に下げる。
論文参考訳（メタデータ） (2025-06-18T16:30:02Z)
Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization [7.1060720569792215]
微調整された大きな言語モデル(LLM)は、必然的に安全性を損なう可能性がある。安全リスクの軽減を目的とした安全意識探索(SAP)フレームワークを導入する。実験の結果,SAPは従来の微調整モデルよりも有害性を効果的に低減できることがわかった。
論文参考訳（メタデータ） (2025-05-22T14:52:10Z)
Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs? [0.836362570897926]
このような一般化のための既存手法について検討し、それらが不十分であることを示す。性能劣化を回避し、安全な性能を維持するために、我々は2段階のフレームワークを提唱する。最後のトークンに対する最後の隠れ状態は、堅牢なパフォーマンスを提供するのに十分であることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:31:50Z)
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文参考訳（メタデータ） (2025-02-04T09:31:54Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [43.44112117935541]
下流タスクのための細調整された大型言語モデル(LLM)は、安全に整合したLLMの安全性を低下させる。下流タスク性能を向上しつつ, LLM 固有の安全性を維持する手法を提案する。
論文参考訳（メタデータ） (2024-12-27T08:03:22Z)
Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文参考訳（メタデータ） (2024-10-07T19:53:35Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文参考訳（メタデータ） (2024-05-27T17:31:56Z)
Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。 textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文参考訳（メタデータ） (2024-04-05T20:31:45Z)
ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。 ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文参考訳（メタデータ） (2024-02-26T09:43:02Z)
Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文参考訳（メタデータ） (2024-02-07T18:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。