論文の概要: LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.02987v2
- Date: Wed, 18 Dec 2024 16:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:18.439081
- Title: LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models
- Title(参考訳): LoRA-Guard:大規模言語モデルのコンテンツモデレーションのためのパラメータ効率の良いガードレール適応
- Authors: Hayder Elesedy, Pedro M. Esperança, Silviu Vlad Oprea, Mete Ozay,
- Abstract要約: 大規模言語モデル(LLM)のコンテンツモデレーションのための安全アライメントの代替としてガードレールが登場した。
LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。
LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法より優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。
- 参考スコア(独自算出の注目度): 15.900125475191958
- License:
- Abstract: Guardrails have emerged as an alternative to safety alignment for content moderation of large language models (LLMs). Existing model-based guardrails have not been designed for resource-constrained computational portable devices, such as mobile phones, more and more of which are running LLM-based applications locally. We introduce LoRA-Guard, a parameter-efficient guardrail adaptation method that relies on knowledge sharing between LLMs and guardrail models. LoRA-Guard extracts language features from the LLMs and adapts them for the content moderation task using low-rank adapters, while a dual-path design prevents any performance degradation on the generative task. We show that LoRA-Guard outperforms existing approaches with 100-1000x lower parameter overhead while maintaining accuracy, enabling on-device content moderation.
- Abstract(参考訳): ガードレールは、大規模言語モデル(LLM)のコンテンツモデレーションのための安全性アライメントの代替として登場した。
既存のモデルベースのガードレールは、携帯電話など、資源に制約のある計算ポータブルデバイス向けには設計されておらず、その多くがLLMベースのアプリケーションをローカルで実行している。
LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。
LoRA-GuardはLLMから言語機能を抽出し、低ランクのアダプタを使ってコンテンツモデレーションタスクに適応する。
LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法よりも優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。
関連論文リスト
- In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。
In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。
ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文 参考訳(メタデータ) (2025-01-29T13:12:01Z) - Lightweight Safety Guardrails Using Fine-tuned BERT Embeddings [12.80474396835751]
我々は、微調整言語モデルのための軽量アーキテクチャを開発する。
この方法はモデルサイズをLlamaGuardの70億のパラメータから約6700万に削減する。
AEGISの安全性ベンチマークでは同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-11-21T18:27:25Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [43.53211005936295]
CoreGuardは、エッジデバイス上でのモデル盗難に対する、計算と通信効率のよいモデル保護アプローチである。
私たちは、CoreGuardがブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成していることを示します。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - Continual Forgetting for Pre-trained Vision Models [70.51165239179052]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
効率的な削除のためのグループスパースロラ(GS-LoRA)を提案する。
我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2024-03-18T07:33:56Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。