論文の概要: ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors
- arxiv url: http://arxiv.org/abs/2402.16444v2
- Date: Tue, 05 Nov 2024 02:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:56:52.501014
- Title: ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors
- Title(参考訳): ShieldLM: LLMをカスタマイズ可能な、説明可能な安全検知器として活用する
- Authors: Zhexin Zhang, Yida Lu, Jingyuan Ma, Di Zhang, Rui Li, Pei Ke, Hao Sun, Lei Sha, Zhifang Sui, Hongning Wang, Minlie Huang,
- Abstract要約: ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
- 参考スコア(独自算出の注目度): 90.73444232283371
- License:
- Abstract: The safety of Large Language Models (LLMs) has gained increasing attention in recent years, but there still lacks a comprehensive approach for detecting safety issues within LLMs' responses in an aligned, customizable and explainable manner. In this paper, we propose ShieldLM, an LLM-based safety detector, which aligns with common safety standards, supports customizable detection rules, and provides explanations for its decisions. To train ShieldLM, we compile a large bilingual dataset comprising 14,387 query-response pairs, annotating the safety of responses based on various safety standards. Through extensive experiments, we demonstrate that ShieldLM surpasses strong baselines across four test sets, showcasing remarkable customizability and explainability. Besides performing well on standard detection datasets, ShieldLM has also been shown to be effective as a safety evaluator for advanced LLMs. ShieldLM is released at \url{https://github.com/thu-coai/ShieldLM} to support accurate and explainable safety detection under various safety standards.
- Abstract(参考訳): 近年,Lumge Language Models (LLMs) の安全性が注目されているが,LLMs の応答における安全性問題を,整列的でカスタマイズ可能な説明可能な方法で検出するための包括的アプローチはいまだに存在しない。
本論文では,LLMをベースとした安全検知器であるShieldLMを提案し,その安全性基準に適合し,カスタマイズ可能な検出ルールをサポートし,その決定について解説する。
ShieldLMをトレーニングするために、14,387のクエリ応答対からなる大規模なバイリンガルデータセットをコンパイルし、様々な安全基準に基づいて応答の安全性を注釈する。
広範な実験を通じて、ShieldLMは4つのテストセットにまたがる強いベースラインを超越し、優れたカスタマイズ性と説明可能性を示す。
標準検出データセットの性能向上に加えて、SilmLMは高度なLCMの安全性評価手段としても有効であることが示されている。
ShieldLM は \url{https://github.com/thu-coai/ShieldLM} でリリースされている。
関連論文リスト
- Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
内部パラメータは、悪意のないバックドアや通常のデータで微調整された場合、セキュリティの劣化に対して脆弱である。
モデルの中心にある,悪意のあるクエリと通常のクエリを区別する上で重要な,連続的なレイヤの小さなセットを同定する。
そこで本稿では,セキュリティの劣化に対処するために,安全性層の勾配を補正する新しいファインチューニング手法であるSPPFTを提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability [25.750371424096436]
大規模言語モデル(LLM)は、様々なアプリケーションにますます多くデプロイされている。
我々の研究は、既存の防衛戦略がLLMに主に拒絶指向の姿勢を採用することを示唆している。
ユーザビリティを保ちつつ,LLMの安全性を高めるために設計されたMoGUフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-23T12:19:59Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。