論文の概要: LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.02987v1
- Date: Wed, 3 Jul 2024 10:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:45:33.543850
- Title: LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models
- Title(参考訳): LoRA-Guard:大規模言語モデルのコンテンツモデレーションのためのパラメータ効率の良いガードレール適応
- Authors: Hayder Elesedy, Pedro M. Esperança, Silviu Vlad Oprea, Mete Ozay,
- Abstract要約: 大規模言語モデル(LLM)のコンテンツモデレーションのための安全アライメントの代替としてガードレールが登場した。
LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。
LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法より優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。
- 参考スコア(独自算出の注目度): 15.900125475191958
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Guardrails have emerged as an alternative to safety alignment for content moderation of large language models (LLMs). Existing model-based guardrails have not been designed for resource-constrained computational portable devices, such as mobile phones, more and more of which are running LLM-based applications locally. We introduce LoRA-Guard, a parameter-efficient guardrail adaptation method that relies on knowledge sharing between LLMs and guardrail models. LoRA-Guard extracts language features from the LLMs and adapts them for the content moderation task using low-rank adapters, while a dual-path design prevents any performance degradation on the generative task. We show that LoRA-Guard outperforms existing approaches with 100-1000x lower parameter overhead while maintaining accuracy, enabling on-device content moderation.
- Abstract(参考訳): ガードレールは、大規模言語モデル(LLM)のコンテンツモデレーションのための安全性アライメントの代替として登場した。
既存のモデルベースのガードレールは、携帯電話など、資源に制約のある計算ポータブルデバイス向けには設計されておらず、その多くがLLMベースのアプリケーションをローカルで実行している。
LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。
LoRA-GuardはLLMから言語機能を抽出し、低ランクのアダプタを使ってコンテンツモデレーションタスクに適応する。
LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法よりも優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。
関連論文リスト
- Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
カスタマイズされたデータセット、ドメイン固有のタスク、その他のプライベートニーズに対するパフォーマンスを高めるためには、微調整された大きな言語モデル(LLM)が必要である。
Safe LoRAは、選択したレイヤからのLoRA重みのプロジェクションを安全に整合したサブスペースに導入することで、オリジナルのLoRA実装のワンラインパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - A Framework for Real-time Safeguarding the Text Generation of Large Language Model [12.683042228674694]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持つ。
有害なコンテンツを発生させる傾向にあるため、倫理的・社会的リスクが生じる。
LLMテキスト生成をリアルタイムに保護する軽量フレームワークであるLLMSafeGuardを提案する。
論文 参考訳(メタデータ) (2024-04-29T18:40:01Z) - Continual Forgetting for Pre-trained Vision Models [70.51165239179052]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
効率的な削除のためのグループスパースロラ(GS-LoRA)を提案する。
我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2024-03-18T07:33:56Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations [29.32704733570445]
我々は人間とAIの会話のユースケースを対象とした入出力保護モデルであるLlama Guardを紹介した。
ラマガードは、特定の安全リスクを分類する貴重なツールである安全リスク分類を取り入れている。
Llama Guardは、OpenAIモデレーション評価データセットやToxicChatなど、既存のベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-07T19:40:50Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。