論文の概要: GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners
- arxiv url: http://arxiv.org/abs/2509.24418v1
- Date: Mon, 29 Sep 2025 08:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.841098
- Title: GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners
- Title(参考訳): GSPR: LLMの安全対策を一般の安全政策の担い手として調整
- Authors: Haoran Li, Yulin Chen, Jingru Zeng, Hao Peng, Huihao Jing, Wenbin Hu, Xi Yang, Ziqian Zeng, Sirui Han, Yangqiu Song,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。
本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。
我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 60.49708196646694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly integrated into numerous applications across various domains, LLMs' safety becomes a critical concern for both application developers and intended users. Currently, great efforts have been made to develop safety benchmarks with fine-grained taxonomies. However, these benchmarks' taxonomies are disparate with different safety policies. Thus, existing safeguards trained on these benchmarks are either coarse-grained to only distinguish between safe and unsafe, or constrained by the narrow risk taxonomies of a single benchmark. To leverage these fine-grained safety taxonomies across multiple safety benchmarks, in this paper, we propose GSPR, a Generalizable Safety Policy Reasoner to identify unsafe input prompts and LLMs' outputs with violated safety taxonomies through Group Relative Policy Optimization (GRPO). Unlike prior safeguards which only cover a fixed set of risk factors, our GSPR incentivizes its reasoning capability with varied safety taxonomies through our careful cold-start strategy and reward design. Consequently, our GSPR can be trained across multiple safety benchmarks with distinct taxonomies and naturally exhibits powerful generalization ability. We conduct extensive experiments to show that our GSPR significantly improves existing safety guardrails' reasoning capabilities for both safety and category prediction tasks. Moreover, our GSPR not only demonstrates powerful safety generalization abilities but also achieves the least inference token costs with explanations.
- Abstract(参考訳): 大規模言語モデル(LLM)がさまざまなドメインにわたる多数のアプリケーションに統合されるにつれて、LLMの安全性はアプリケーション開発者とユーザの両方にとって重要な問題となっている。
現在、微粒な分類学を用いた安全性ベンチマークの開発に多大な努力が払われている。
しかし、これらのベンチマークの分類は、異なる安全性ポリシーで異なっています。
したがって、これらのベンチマークでトレーニングされた既存のセーフガードは、セーフとアンセーフを区別するだけに粗い粒度を持つか、1つのベンチマークの狭いリスク分類に制約される。
本稿では,複数の安全ベンチマークにおいて,これらのきめ細かい安全分類を活用すべく,グループ相対政策最適化(GRPO)を通じて,安全でない入力プロンプトとLLMの出力を識別する汎用安全政策推論器であるGSPRを提案する。
我々のGSPRは、固定されたリスクファクターのみをカバーする以前のセーフガードとは異なり、注意深いコールドスタート戦略と報酬設計を通じて、様々な安全分類で推論能力にインセンティブを与えています。
その結果、GSPRは、異なる分類の異なる複数の安全ベンチマークで訓練でき、強力な一般化能力を示す。
我々は、GSPRが既存の安全ガードレールの推論能力を大幅に改善し、安全性とカテゴリー予測の両課題について広範囲にわたる実験を行った。
さらに, GSPRは安全性向上能力を示すだけでなく, 説明による推論トークンコストの最小化も達成している。
関連論文リスト
- Safe-SAIL: Towards a Fine-grained Safety Landscape of Large Language Models via Sparse Autoencoder Interpretation Framework [31.278770676774325]
大規模言語モデル(LLM)内でのSAE機能を解釈するフレームワークであるSafe-SAILを提案する。
提案手法は,SAEを最も優れた概念特異的解釈可能性で体系的に識別し,安全性関連ニューロンを説明し,解釈プロセスをスケールアップするための効率的な戦略を導入する。
論文 参考訳(メタデータ) (2025-09-11T11:22:43Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。