Fugu-MT 論文翻訳(概要): GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners

論文の概要: GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners

arxiv url: http://arxiv.org/abs/2509.24418v1
Date: Mon, 29 Sep 2025 08:07:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.841098
Title: GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners
Title（参考訳）: GSPR: LLMの安全対策を一般の安全政策の担い手として調整
Authors: Haoran Li, Yulin Chen, Jingru Zeng, Hao Peng, Huihao Jing, Wenbin Hu, Xi Yang, Ziqian Zeng, Sirui Han, Yangqiu Song,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
参考スコア（独自算出の注目度）: 60.49708196646694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) are increasingly integrated into numerous applications across various domains, LLMs' safety becomes a critical concern for both application developers and intended users. Currently, great efforts have been made to develop safety benchmarks with fine-grained taxonomies. However, these benchmarks' taxonomies are disparate with different safety policies. Thus, existing safeguards trained on these benchmarks are either coarse-grained to only distinguish between safe and unsafe, or constrained by the narrow risk taxonomies of a single benchmark. To leverage these fine-grained safety taxonomies across multiple safety benchmarks, in this paper, we propose GSPR, a Generalizable Safety Policy Reasoner to identify unsafe input prompts and LLMs' outputs with violated safety taxonomies through Group Relative Policy Optimization (GRPO). Unlike prior safeguards which only cover a fixed set of risk factors, our GSPR incentivizes its reasoning capability with varied safety taxonomies through our careful cold-start strategy and reward design. Consequently, our GSPR can be trained across multiple safety benchmarks with distinct taxonomies and naturally exhibits powerful generalization ability. We conduct extensive experiments to show that our GSPR significantly improves existing safety guardrails' reasoning capabilities for both safety and category prediction tasks. Moreover, our GSPR not only demonstrates powerful safety generalization abilities but also achieves the least inference token costs with explanations.
Abstract（参考訳）: 大規模言語モデル(LLM)がさまざまなドメインにわたる多数のアプリケーションに統合されるにつれて、LLMの安全性はアプリケーション開発者とユーザの両方にとって重要な問題となっている。現在、微粒な分類学を用いた安全性ベンチマークの開発に多大な努力が払われている。しかし、これらのベンチマークの分類は、異なる安全性ポリシーで異なっています。したがって、これらのベンチマークでトレーニングされた既存のセーフガードは、セーフとアンセーフを区別するだけに粗い粒度を持つか、1つのベンチマークの狭いリスク分類に制約される。本稿では,複数の安全ベンチマークにおいて,これらのきめ細かい安全分類を活用すべく,グループ相対政策最適化(GRPO)を通じて,安全でない入力プロンプトとLLMの出力を識別する汎用安全政策推論器であるGSPRを提案する。我々のGSPRは、固定されたリスクファクターのみをカバーする以前のセーフガードとは異なり、注意深いコールドスタート戦略と報酬設計を通じて、様々な安全分類で推論能力にインセンティブを与えています。その結果、GSPRは、異なる分類の異なる複数の安全ベンチマークで訓練でき、強力な一般化能力を示す。我々は、GSPRが既存の安全ガードレールの推論能力を大幅に改善し、安全性とカテゴリー予測の両課題について広範囲にわたる実験を行った。さらに, GSPRは安全性向上能力を示すだけでなく, 説明による推論トークンコストの最小化も達成している。

論文の概要: GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners

関連論文リスト