論文の概要: What Makes and Breaks Safety Fine-tuning? A Mechanistic Study
- arxiv url: http://arxiv.org/abs/2407.10264v2
- Date: Tue, 16 Jul 2024 19:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 11:56:44.636434
- Title: What Makes and Breaks Safety Fine-tuning? A Mechanistic Study
- Title(参考訳): 安全ファインチューニングの作り方と壊し方 : メカニカルスタディ
- Authors: Samyak Jain, Ekdeep Singh Lubana, Kemal Oksuz, Tom Joy, Philip H. S. Torr, Amartya Sanyal, Puneet K. Dokania,
- Abstract要約: 安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
- 参考スコア(独自算出の注目度): 64.9691741899956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety fine-tuning helps align Large Language Models (LLMs) with human preferences for their safe deployment. To better understand the underlying factors that make models safe via safety fine-tuning, we design a synthetic data generation framework that captures salient aspects of an unsafe input by modeling the interaction between the task the model is asked to perform (e.g., "design") versus the specific concepts the task is asked to be performed upon (e.g., a "cycle" vs. a "bomb"). Using this, we investigate three well-known safety fine-tuning methods -- supervised safety fine-tuning, direct preference optimization, and unlearning -- and provide significant evidence demonstrating that these methods minimally transform MLP weights to specifically align unsafe inputs into its weights' null space. This yields a clustering of inputs based on whether the model deems them safe or not. Correspondingly, when an adversarial input (e.g., a jailbreak) is provided, its activations are closer to safer samples, leading to the model processing such an input as if it were safe. We validate our findings, wherever possible, on real-world models -- specifically, Llama-2 7B and Llama-3 8B.
- Abstract(参考訳): 安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
モデルが実行するタスク間の相互作用(例えば「設計」)をモデル化し、そのタスクの実行を要求される特定の概念(例えば「サイクル」対「ボム」)に対してモデル化することで、安全でない入力の健全な側面を捉える合成データ生成フレームワークを設計する。
これを用いて、教師付き安全微調整、直接選好最適化、未学習の3つの有名な安全微調整手法を調査し、これらの手法がMDP重みを最小限に変換し、安全でない入力をその重みのnull空間に具体的に整合させることを示す重要な証拠を提供する。
これにより、モデルがそれらを安全とみなすかどうかに基づいて、入力のクラスタリングが生成される。
それに対応して、敵入力(例えばジェイルブレイク)が提供されると、その活性化はより安全なサンプルに近づき、安全であるかのように入力などのモデル処理が行われる。
実世界のモデル、特にLlama-2 7BとLlama-3 8Bでこの結果を検証する。
関連論文リスト
- Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Single Character Perturbations Break LLM Alignment [20.79833694266861]
モデル入力の端に空間を付加するだけで、モデルディフェンスを壊すことが可能であることを示す。
トークン化されたトレーニングデータに単一空間が存在する状況は、モデルにトリガーされた時にリストを生成することを奨励する。
本研究は, 現行モデルアライメントの脆弱さを浮き彫りにして, より堅牢なアライメント手法の開発の重要性を推し進めるものである。
論文 参考訳(メタデータ) (2024-07-03T16:03:10Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。
異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。
実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T17:48:13Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
我々は,安全景観をナビゲートすることで,大規模言語モデル(LLM)の微調整のリスクを測定することを目的としている。
我々は、人気のあるオープンソースLLMのモデルパラメータ空間において、普遍的に観察される新しい現象を発見した。
整列モデルの安全性の景観を可視化することで,モデルからモデルを引き離すことによって,微調整がいかに安全性を損なうかを理解することができる。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - A safety realignment framework via subspace-oriented model fusion for large language models [22.588716190505963]
サブスペース指向モデル融合(SOMF)による安全性向上フレームワークを提案する。
我々のアプローチは、各微調整されたモデルの重みから全てのタスクベクトルを遠ざけることから始まる。
次に,これらのベクトル内の安全関連領域をサブスペースマスキング手法により同定する。
論文 参考訳(メタデータ) (2024-05-15T03:04:05Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。