論文の概要: Gradient Co-occurrence Analysis for Detecting Unsafe Prompts in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.12411v1
- Date: Tue, 18 Feb 2025 01:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:48.767185
- Title: Gradient Co-occurrence Analysis for Detecting Unsafe Prompts in Large Language Models
- Title(参考訳): 大規模言語モデルにおける安全でないプロンプト検出のためのグラディエント共起解析
- Authors: Jingyuan Yang, Bowen Yan, Rongjun Li, Ziyu Zhou, Xin Chen, Zhiyong Feng, Wei Peng,
- Abstract要約: 安全でないプロンプトは大きな言語モデル(LLM)に重大な安全リスクをもたらす
安全クリティカルパラメータ識別の範囲を拡大する勾配共起解析法であるGradCooを導入する。
提案手法は,既存手法と比較して最先端(SOTA)性能を実現することができる。
- 参考スコア(独自算出の注目度): 16.369885004916668
- License:
- Abstract: Unsafe prompts pose significant safety risks to large language models (LLMs). Existing methods for detecting unsafe prompts rely on data-driven fine-tuning to train guardrail models, necessitating significant data and computational resources. In contrast, recent few-shot gradient-based methods emerge, requiring only few safe and unsafe reference prompts. A gradient-based approach identifies unsafe prompts by analyzing consistent patterns of the gradients of safety-critical parameters in LLMs. Although effective, its restriction to directional similarity (cosine similarity) introduces ``directional bias'', limiting its capability to identify unsafe prompts. To overcome this limitation, we introduce GradCoo, a novel gradient co-occurrence analysis method that expands the scope of safety-critical parameter identification to include unsigned gradient similarity, thereby reducing the impact of ``directional bias'' and enhancing the accuracy of unsafe prompt detection. Comprehensive experiments on the widely-used benchmark datasets ToxicChat and XStest demonstrate that our proposed method can achieve state-of-the-art (SOTA) performance compared to existing methods. Moreover, we confirm the generalizability of GradCoo in detecting unsafe prompts across a range of LLM base models with various sizes and origins.
- Abstract(参考訳): 安全でないプロンプトは、大きな言語モデル(LLM)に重大な安全リスクをもたらす。
既存の安全でないプロンプトを検出する方法は、データ駆動の微調整に依存してガードレールモデルを訓練し、重要なデータと計算資源を必要とする。
対照的に、最近の数発のグラデーションベースのメソッドが登場し、安全で安全性の低い参照プロンプトしか必要としない。
勾配に基づくアプローチは、LLMにおける安全クリティカルパラメータの勾配の一貫性のあるパターンを解析することにより、安全でないプロンプトを識別する。
効果はあるものの、方向類似性(コサイン類似性)に対する制限は'方向バイアス'を導入し、安全でないプロンプトを識別する能力を制限する。
この制限を克服するため,新しい勾配共起解析手法であるGradCooを導入する。これは安全クリティカルパラメータ識別の範囲を拡大し,符号なし勾配類似性を含むようにし,"方向バイアス"の影響を低減し,安全でない緊急検出の精度を高める。
ToxicChat と XStest のベンチマークデータセットに関する総合的な実験により,提案手法が既存手法と比較して最先端(SOTA)性能を達成できることが実証された。
さらに,様々なサイズと起源を持つLLMベースモデルにおいて,安全でないプロンプトを検出する上でのGradCooの一般化性を確認した。
関連論文リスト
- STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Data-Driven Distributionally Robust Safety Verification Using Barrier Certificates and Conditional Mean Embeddings [0.24578723416255752]
問題を非現実的な仮定にシフトすることなく,スケーラブルな形式検証アルゴリズムを開発する。
問題を非現実的な仮定にシフトさせることなく,スケーラブルな形式検証アルゴリズムを開発するためには,バリア証明書の概念を用いる。
本稿では,2乗法最適化とガウス過程エンベロープを用いて効率よくプログラムを解く方法を示す。
論文 参考訳(メタデータ) (2024-03-15T17:32:02Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Exploiting Low-confidence Pseudo-labels for Source-free Object Detection [54.98300313452037]
Source-free Object Detection (SFOD) は、ラベル付きソースデータにアクセスすることなく、未ラベルのターゲットドメインにソーストレーニングされた検出器を適応することを目的としている。
現在のSFOD法は適応相におけるしきい値に基づく擬似ラベル手法を用いる。
疑似ラベルを最大限に活用するために,高信頼度と低信頼度しきい値を導入する手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T12:59:55Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Dense Learning based Semi-Supervised Object Detection [46.885301243656045]
半教師付きオブジェクト検出(SSOD)は、大量のラベルのないデータの助けを借りて、オブジェクト検出器の訓練と展開を容易にすることを目的としている。
本稿では,DenSe Learningに基づくアンカーフリーSSODアルゴリズムを提案する。
実験はMS-COCOとPASCAL-VOCで行われ,提案手法は新たな最先端SSOD性能を記録する。
論文 参考訳(メタデータ) (2022-04-15T02:31:02Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z) - An Abstraction-based Method to Verify Multi-Agent Deep
Reinforcement-Learning Behaviours [8.95294551927446]
マルチエージェント強化学習(RL)はしばしば、学習エージェントの安全な行動を保証するために苦労する。
本稿では,形式検証と(深度)RLアルゴリズムを組み合わせることで,形式化された安全制約の満足度を保証する手法を提案する。
論文 参考訳(メタデータ) (2021-02-02T11:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。