論文の概要: Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2405.16833v1
- Date: Mon, 27 May 2024 05:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 17:00:31.500000
- Title: Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models
- Title(参考訳): Safe LoRA: 大規模言語モデルにおける安全性リスク低減のための銀のライニング
- Authors: Chia-Yi Hsu, Yu-Lin Tsai, Chih-Hsun Lin, Pin-Yu Chen, Chia-Mu Yu, Chun-Ying Huang,
- Abstract要約: カスタマイズされたデータセット、ドメイン固有のタスク、その他のプライベートニーズに対するパフォーマンスを高めるためには、微調整された大きな言語モデル(LLM)が必要である。
Safe LoRAは、選択したレイヤからのLoRA重みのプロジェクションを安全に整合したサブスペースに導入することで、オリジナルのLoRA実装のワンラインパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
- 参考スコア(独自算出の注目度): 51.20476412037321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) such as Llama-2 or GPT-4 have shown impressive zero-shot performance, fine-tuning is still necessary to enhance their performance for customized datasets, domain-specific tasks, or other private needs. However, fine-tuning all parameters of LLMs requires significant hardware resources, which can be impractical for typical users. Therefore, parameter-efficient fine-tuning such as LoRA have emerged, allowing users to fine-tune LLMs without the need for considerable computing resources, with little performance degradation compared to fine-tuning all parameters. Unfortunately, recent studies indicate that fine-tuning can increase the risk to the safety of LLMs, even when data does not contain malicious content. To address this challenge, we propose Safe LoRA, a simple one-liner patch to the original LoRA implementation by introducing the projection of LoRA weights from selected layers to the safety-aligned subspace, effectively reducing the safety risks in LLM fine-tuning while maintaining utility. It is worth noting that Safe LoRA is a training-free and data-free approach, as it only requires the knowledge of the weights from the base and aligned LLMs. Our extensive experiments demonstrate that when fine-tuning on purely malicious data, Safe LoRA retains similar safety performance as the original aligned model. Moreover, when the fine-tuning dataset contains a mixture of both benign and malicious data, Safe LoRA mitigates the negative effect made by malicious data while preserving performance on downstream tasks.
- Abstract(参考訳): Llama-2やGPT-4のような大きな言語モデル(LLM)は、ゼロショットのパフォーマンスが目覚ましいが、カスタマイズされたデータセットやドメイン固有のタスク、その他のプライベートなニーズに対するパフォーマンス向上には、微調整が必要である。
しかし、LLMのパラメータを微調整するには、ハードウェアリソースがかなり必要であり、典型的なユーザにとっては実用的ではない。
そのため、LoRAのようなパラメータ効率のよい微調整が登場し、ユーザーはかなりの計算資源を必要とせず、全てのパラメータを微調整するよりも性能が劣る。
残念ながら、最近の研究では、データが悪意のあるコンテンツを含んでいない場合でも、微調整がLLMの安全性のリスクを高めることが示されている。
この課題に対処するために,選択した層からのLORA重みの投影を安全に整合した部分空間に導入し,実用性を維持しつつLLM微調整の安全性リスクを効果的に低減し,オリジナルのLORA実装に簡単な一直線パッチであるSafe LoRAを提案する。
Safe LoRAはトレーニングフリーでデータフリーなアプローチであることに注意が必要だ。
我々の広範な実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同じような安全性を保っていることを示している。
さらに、微調整データセットに良性データと悪質データの両方が混在している場合、Safe LoRAは下流タスクのパフォーマンスを維持しながら悪意データによる悪影響を軽減する。
関連論文リスト
- LoRA-Mini : Adaptation Matrices Decomposition and Selective Training [2.0670689746336]
Low-Rank Adaptation (LoRA)は、トレーニング可能なパラメータの数を減らし、パラメータ効率の良い微調整を可能にする、有望なソリューションとして登場した。
低ランク行列を4つに分割することでパラメータ効率を向上させるLoRAを最適化したLoRA-Miniを提案する。
このアプローチは、標準のLoRAに匹敵するパフォーマンスレベルを維持しながら、トレーニング可能なパラメータの数に対して、標準のLoRAと比較して最大20倍の削減を実現している。
論文 参考訳(メタデータ) (2024-11-24T12:21:14Z) - LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement [5.162783756846019]
ファンデーションモデル(FM)は、タスク固有の微調整によって、多様なタスクにまたがる強力なパフォーマンスを実現する。
低ランク適応 (LoRA) のようなローランク適応 (LoRA) 手法は、少ないパラメータをチューニングするための低ランク行列を導入することで、このコストを削減する。
LoRA-FAIRは計算と通信の効率を維持し、最先端の手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2024-11-22T14:19:01Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models [15.900125475191958]
大規模言語モデル(LLM)のコンテンツモデレーションのための安全アライメントの代替としてガードレールが登場した。
LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。
LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法より優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。
論文 参考訳(メタデータ) (2024-07-03T10:38:40Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Improving LoRA in Privacy-preserving Federated Learning [44.47315926976059]
ローランク適応(ローランク適応、LoRA)は、事前訓練された言語モデルにおける最も一般的なタスク固有パラメータ効率細調整(PEFT)手法の1つである。
本稿では,これらの課題を緩和するために,LoRAの効率的かつ効果的なフェデレートフリーズA LoRA(FFA-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-03-18T23:20:08Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。