論文の概要: GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners
- arxiv url: http://arxiv.org/abs/2509.24418v1
- Date: Mon, 29 Sep 2025 08:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.841098
- Title: GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners
- Title(参考訳): GSPR: LLMの安全対策を一般の安全政策の担い手として調整
- Authors: Haoran Li, Yulin Chen, Jingru Zeng, Hao Peng, Huihao Jing, Wenbin Hu, Xi Yang, Ziqian Zeng, Sirui Han, Yangqiu Song,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。
本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。
我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 60.49708196646694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly integrated into numerous applications across various domains, LLMs' safety becomes a critical concern for both application developers and intended users. Currently, great efforts have been made to develop safety benchmarks with fine-grained taxonomies. However, these benchmarks' taxonomies are disparate with different safety policies. Thus, existing safeguards trained on these benchmarks are either coarse-grained to only distinguish between safe and unsafe, or constrained by the narrow risk taxonomies of a single benchmark. To leverage these fine-grained safety taxonomies across multiple safety benchmarks, in this paper, we propose GSPR, a Generalizable Safety Policy Reasoner to identify unsafe input prompts and LLMs' outputs with violated safety taxonomies through Group Relative Policy Optimization (GRPO). Unlike prior safeguards which only cover a fixed set of risk factors, our GSPR incentivizes its reasoning capability with varied safety taxonomies through our careful cold-start strategy and reward design. Consequently, our GSPR can be trained across multiple safety benchmarks with distinct taxonomies and naturally exhibits powerful generalization ability. We conduct extensive experiments to show that our GSPR significantly improves existing safety guardrails' reasoning capabilities for both safety and category prediction tasks. Moreover, our GSPR not only demonstrates powerful safety generalization abilities but also achieves the least inference token costs with explanations.
- Abstract(参考訳): 大規模言語モデル(LLM)がさまざまなドメインにわたる多数のアプリケーションに統合されるにつれて、LLMの安全性はアプリケーション開発者とユーザの両方にとって重要な問題となっている。
現在、微粒な分類学を用いた安全性ベンチマークの開発に多大な努力が払われている。
しかし、これらのベンチマークの分類は、異なる安全性ポリシーで異なっています。
したがって、これらのベンチマークでトレーニングされた既存のセーフガードは、セーフとアンセーフを区別するだけに粗い粒度を持つか、1つのベンチマークの狭いリスク分類に制約される。
本稿では,複数の安全ベンチマークにおいて,これらのきめ細かい安全分類を活用すべく,グループ相対政策最適化(GRPO)を通じて,安全でない入力プロンプトとLLMの出力を識別する汎用安全政策推論器であるGSPRを提案する。
我々のGSPRは、固定されたリスクファクターのみをカバーする以前のセーフガードとは異なり、注意深いコールドスタート戦略と報酬設計を通じて、様々な安全分類で推論能力にインセンティブを与えています。
その結果、GSPRは、異なる分類の異なる複数の安全ベンチマークで訓練でき、強力な一般化能力を示す。
我々は、GSPRが既存の安全ガードレールの推論能力を大幅に改善し、安全性とカテゴリー予測の両課題について広範囲にわたる実験を行った。
さらに, GSPRは安全性向上能力を示すだけでなく, 説明による推論トークンコストの最小化も達成している。
関連論文リスト
- Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety [59.01189713115365]
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。
明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。
自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
論文 参考訳(メタデータ) (2026-01-12T21:08:46Z) - SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization [79.14563283347773]
マルチモーダルな大言語モデル (MLLM) は印象的な推論と命令追従能力を示した。
クロスモーダル結合は、個々の入力が良性である場合でも、安全でないセマンティクスを生成する。
自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T05:09:49Z) - DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - Safe-SAIL: Towards a Fine-grained Safety Landscape of Large Language Models via Sparse Autoencoder Interpretation Framework [31.278770676774325]
大規模言語モデル(LLM)内でのSAE機能を解釈するフレームワークであるSafe-SAILを提案する。
提案手法は,SAEを最も優れた概念特異的解釈可能性で体系的に識別し,安全性関連ニューロンを説明し,解釈プロセスをスケールアップするための効率的な戦略を導入する。
論文 参考訳(メタデータ) (2025-09-11T11:22:43Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。