論文の概要: LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B
- arxiv url: http://arxiv.org/abs/2310.20624v2
- Date: Wed, 22 May 2024 08:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:23:38.047102
- Title: LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B
- Title(参考訳): Llama 2-Chat 70BにおけるLRA微調整の安全性向上
- Authors: Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish,
- Abstract要約: 本稿では,Llama 2-Chatの微調整による言語モデルの安全性トレーニングの堅牢性について検討する。
本手法は,有害な指示に従うことを拒否する率を大幅に削減する。
逆微調整は実用的かつ効果的であることを示し、それゆえ、微調整によるリスク評価がリスク評価の中核となるべきであると論じる。
- 参考スコア(独自算出の注目度): 0.10414713311972776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat - a collection of instruction fine-tuned large language models - they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. We explore the robustness of safety training in language models by subversively fine-tuning Llama 2-Chat. We employ quantized low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than \$200 and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B and on the Mixtral instruct model. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve refusal rates of about 1\% for our 70B Llama 2-Chat model on two refusal benchmarks. Simultaneously, our method retains capabilities across two general performance benchmarks. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights. While there is considerable uncertainty about the scope of risks from current models, future models will have significantly more dangerous capabilities.
- Abstract(参考訳): AI開発者は、AIシステムの誤用を防ぐために、安全アライメント手順を適用することが多い。
たとえば、MetaがLlama 2-Chatをリリースする前に、彼らは安全性トレーニングに多大な投資をし、人間のフィードバックから広範なレッドチームと強化学習を取り入れた。
本稿では,Llama 2-Chatの微調整による言語モデルの安全性トレーニングの堅牢性について検討する。
効率的な微調整法として量子化低ランク適応(LoRA)を用いる。
200ドル未満の予算でGPUを1つしか使わず,7B,13B,70BのLlama 2-Chatモデルの安全性トレーニングをMixtralインストラクションモデル上で実施することに成功しました。
特に,我々の微調整技術は,有害な指示に従うことを拒否する率を大幅に低下させる。
Llama 2-Chatモデルでは2つのリファレンスベンチマークで約1\%のリファレンス率を達成する。
同時に,本手法は2つの一般的な性能ベンチマークにまたがって機能を維持する。
逆微調整は実用的かつ効果的であることを示し、従って、微調整によるリスク評価は、モデル重みを解放するためのリスク評価の中核部分であるべきだと論じる。
現在のモデルからリスクの範囲についてかなりの不確実性があるが、将来のモデルははるかに危険な能力を持つだろう。
関連論文リスト
- Rule Based Rewards for Language Model Safety [14.444217964594108]
Rule Based Rewards (RBR) は、望ましい行動や望ましくない行動にルールの集合を使用する。
RBRは効果的な訓練方法であり、F1スコアは97.1であり、人間フィードバックベースラインは91.7である。
論文 参考訳(メタデータ) (2024-11-02T02:22:21Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions [79.1824160877979]
いくつかの一般的な命令調整モデルは非常に安全でないことを示す。
私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。
論文 参考訳(メタデータ) (2023-09-14T17:23:37Z) - Self-Ensemble Protection: Training Checkpoints Are Good Data Protectors [41.45649235969172]
自己アンサンブル保護(SEP)は、データに対する優れたモデルのトレーニングを防ぐために提案されている。
例えば、我々の小さな摂動により、CIFAR-10 ResNet18の精度は94.56%から14.68%に低下し、最もよく知られている方法は41.35%となった。
論文 参考訳(メタデータ) (2022-11-22T04:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。