論文の概要: PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing
- arxiv url: http://arxiv.org/abs/2407.16318v1
- Date: Tue, 23 Jul 2024 09:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 17:56:16.909797
- Title: PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing
- Title(参考訳): PrimeGuard: チューニング不要のルーティングによる安全でヘルプなLLM
- Authors: Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan,
- Abstract要約: 推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。
現在の手法は安全性と利便性のバランスをとるのに苦労している。
構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
- 参考スコア(独自算出の注目度): 1.474945380093949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying language models (LMs) necessitates outputs to be both high-quality and compliant with safety guidelines. Although Inference-Time Guardrails (ITG) offer solutions that shift model output distributions towards compliance, we find that current methods struggle in balancing safety with helpfulness. ITG Methods that safely address non-compliant queries exhibit lower helpfulness while those that prioritize helpfulness compromise on safety. We refer to this trade-off as the guardrail tax, analogous to the alignment tax. To address this, we propose PrimeGuard, a novel ITG method that utilizes structured control flow. PrimeGuard routes requests to different self-instantiations of the LM with varying instructions, leveraging its inherent instruction-following capabilities and in-context learning. Our tuning-free approach dynamically compiles system-designer guidelines for each query. We construct and release safe-eval, a diverse red-team safety benchmark. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax by (1) significantly increasing resistance to iterative jailbreak attacks and (2) achieving state-of-the-art results in safety guardrailing while (3) matching helpfulness scores of alignment-tuned models. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, outperforms all competing baselines and overcomes the guardrail tax by improving the fraction of safe responses from 61% to 97% and increasing average helpfulness scores from 4.17 to 4.29 on the largest models, while reducing attack success rate from 100% to 8%. PrimeGuard implementation is available at https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at https://huggingface.co/datasets/dynamoai/safe_eval.
- Abstract(参考訳): 言語モデル(LM)のデプロイは、高品質かつ安全ガイドラインに準拠した出力を必要とする。
Inference-Time Guardrails (ITG)は、モデル出力分布をコンプライアンスにシフトするソリューションを提供するが、現在の手法は安全性と利便性のバランスに苦慮している。
非準拠なクエリに安全に対処するITGメソッドは、安全性に対する利便性の妥協を優先する一方で、利便性の低下を示す。
我々はこのトレードオフを、アライメント税に類似したガードレール税と呼ぶ。
そこで本研究では,構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
PrimeGuardは、固有の命令フォロー機能とコンテキスト内学習を活用して、さまざまな命令でLMの異なる自己検証にリクエストをルーティングする。
チューニング不要なアプローチでは,クエリ毎にシステム設計ガイドラインを動的にコンパイルする。
多様なレッドチーム安全ベンチマークであるSafe-evalを構築しリリースしています。
大規模評価では,(1)繰り返しジェイルブレイク攻撃に対する抵抗が著しく増加し,(2)安全ガードレールの最先端化が達成され,(3)アライメント調整モデルの有用性スコアに適合していることから,プライムガードは微調整なしでガードレール税を克服することが示された。
大規模な評価では、PrimeGuardは細調整なしで、競合するベースラインをすべて上回り、安全応答の割合を61%から97%に改善し、最大のモデルでは4.17から4.29まで、攻撃成功率を100%から8%に下げることでガードレール税を克服している。
PrimeGuardの実装はhttps://github.com/dynamofl/PrimeGuardで、Safe-evalデータセットはhttps://huggingface.co/datasets/dynamoai/safe_evalで利用可能である。
関連論文リスト
- Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning [8.408258504178718]
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。
R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。
R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-08T02:15:29Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment [34.8682729537795]
エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護手法であるTransLinkGuardを提案する。
TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。
大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。
論文 参考訳(メタデータ) (2024-04-17T07:08:45Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。