Fugu-MT 論文翻訳(概要): LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models

論文の概要: LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models

arxiv url: http://arxiv.org/abs/2407.02987v2
Date: Wed, 18 Dec 2024 16:07:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 18:59:48.973789
Title: LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models
Title（参考訳）: LoRA-Guard:大規模言語モデルのコンテンツモデレーションのためのパラメータ効率の良いガードレール適応
Authors: Hayder Elesedy, Pedro M. Esperança, Silviu Vlad Oprea, Mete Ozay,
Abstract要約: 大規模言語モデル(LLM)のコンテンツモデレーションのための安全アライメントの代替としてガードレールが登場した。 LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。 LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法より優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。
参考スコア（独自算出の注目度）: 15.900125475191958
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Guardrails have emerged as an alternative to safety alignment for content moderation of large language models (LLMs). Existing model-based guardrails have not been designed for resource-constrained computational portable devices, such as mobile phones, more and more of which are running LLM-based applications locally. We introduce LoRA-Guard, a parameter-efficient guardrail adaptation method that relies on knowledge sharing between LLMs and guardrail models. LoRA-Guard extracts language features from the LLMs and adapts them for the content moderation task using low-rank adapters, while a dual-path design prevents any performance degradation on the generative task. We show that LoRA-Guard outperforms existing approaches with 100-1000x lower parameter overhead while maintaining accuracy, enabling on-device content moderation.
Abstract（参考訳）: ガードレールは、大規模言語モデル(LLM)のコンテンツモデレーションのための安全性アライメントの代替として登場した。既存のモデルベースのガードレールは、携帯電話など、資源に制約のある計算ポータブルデバイス向けには設計されておらず、その多くがLLMベースのアプリケーションをローカルで実行している。 LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。 LoRA-GuardはLLMから言語機能を抽出し、低ランクのアダプタを使ってコンテンツモデレーションタスクに適応する。 LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法よりも優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。

関連論文リスト

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文参考訳（メタデータ） (2025-06-19T15:38:21Z)
In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。 In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。 ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文参考訳（メタデータ） (2025-01-29T13:12:01Z)
Lightweight Safety Guardrails Using Fine-tuned BERT Embeddings [12.80474396835751]
我々は、微調整言語モデルのための軽量アーキテクチャを開発する。この方法はモデルサイズをLlamaGuardの70億のパラメータから約6700万に削減する。 AEGISの安全性ベンチマークでは同等のパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-11-21T18:27:25Z)
CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [43.53211005936295]
CoreGuardは、エッジデバイス上でのモデル盗難に対する、計算と通信効率のよいモデル保護アプローチである。私たちは、CoreGuardがブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成していることを示します。
論文参考訳（メタデータ） (2024-10-16T08:14:24Z)
Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-24T05:24:41Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。 GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
カスタマイズされたデータセット、ドメイン固有のタスク、その他のプライベートニーズに対するパフォーマンスを高めるためには、微調整された大きな言語モデル(LLM)が必要である。 Safe LoRAは、選択したレイヤからのLoRA重みのプロジェクションを安全に整合したサブスペースに導入することで、オリジナルのLoRA実装のワンラインパッチである。我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文参考訳（メタデータ） (2024-05-27T05:04:05Z)
Continual Forgetting for Pre-trained Vision Models [70.51165239179052]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。効率的な削除のためのグループスパースロラ(GS-LoRA)を提案する。我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
論文参考訳（メタデータ） (2024-03-18T07:33:56Z)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文参考訳（メタデータ） (2023-07-15T04:37:11Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。