論文の概要: SLM as Guardian: Pioneering AI Safety with Small Language Models
- arxiv url: http://arxiv.org/abs/2405.19795v1
- Date: Thu, 30 May 2024 08:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:28:56.585181
- Title: SLM as Guardian: Pioneering AI Safety with Small Language Models
- Title(参考訳): ガーディアンとしてのSLM - 小さな言語モデルによるAI安全性のパイオニア化
- Authors: Ohjoon Kwon, Donghyeon Jeon, Nayoung Choi, Gyu-Hwung Cho, Changbong Kim, Hyunwoo Lee, Inho Kang, Sun Kim, Taiwoo Park,
- Abstract要約: より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
- 参考スコア(独自算出の注目度): 6.799423428734095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most prior safety research of large language models (LLMs) has focused on enhancing the alignment of LLMs to better suit the safety requirements of humans. However, internalizing such safeguard features into larger models brought challenges of higher training cost and unintended degradation of helpfulness. To overcome such challenges, a modular approach employing a smaller LLM to detect harmful user queries is regarded as a convenient solution in designing LLM-based system with safety requirements. In this paper, we leverage a smaller LLM for both harmful query detection and safeguard response generation. We introduce our safety requirements and the taxonomy of harmfulness categories, and then propose a multi-task learning mechanism fusing the two tasks into a single model. We demonstrate the effectiveness of our approach, providing on par or surpassing harmful query detection and safeguard response performance compared to the publicly available LLMs.
- Abstract(参考訳): 大型言語モデル(LLM)のこれまでの安全研究は、人間の安全要件に合うようにLCMのアライメントを強化することに重点を置いている。
しかし、そのような安全機能をより大型のモデルに内包することで、より高い訓練コストと意図しない補助性の低下の課題がもたらされた。
このような課題を克服するために、LLMを小さくして有害なユーザクエリを検出するモジュラーアプローチは、LLMベースのシステムを安全要件で設計する上で便利なソリューションであると見なされている。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
安全要件と有害度カテゴリーの分類を導入し、2つのタスクを1つのモデルに融合させるマルチタスク学習機構を提案する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。
本手法は良性を保持しながらタンパー抵抗を大幅に改善する。
以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
論文 参考訳(メタデータ) (2024-08-01T17:59:12Z) - AI Safety in Generative AI Large Language Models: A Survey [14.737084887928408]
生成的AI能力を示す大規模言語モデル(LLM)は、採用とイノベーションの加速に直面している。
生成AI(GAI)は、これらのモデルに関連するリスクと安全性に関する懸念を必然的に高める。
本稿では,コンピュータ科学者の視点からAI安全研究の最新の動向について報告する。
論文 参考訳(メタデータ) (2024-07-06T09:00:18Z) - Stealthy Attack on Large Language Model based Recommendation [24.51398285321322]
大規模言語モデル (LLM) はレコメンダシステム (RS) の進歩を推進している。
本研究では,レコメンデーションモデルにLSMを導入することで,項目のテキスト内容に重点を置いているため,新たなセキュリティ脆弱性が生じることを明らかにした。
攻撃者は、テストフェーズ中に単にテキストの内容を変更するだけで、アイテムの露出を大幅に向上させることができることを実証する。
論文 参考訳(メタデータ) (2024-02-18T16:51:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。