論文の概要: RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards
- arxiv url: http://arxiv.org/abs/2506.07736v2
- Date: Wed, 11 Jun 2025 09:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.027912
- Title: RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards
- Title(参考訳): RSafe: 堅牢で適応的なLLMセーフガードを構築するための積極的推論のインセンティブ
- Authors: Jingnan Zheng, Xiangtian Ji, Yijun Lu, Chenhang Cui, Weixiang Zhao, Gelei Deng, Zhenkai Liang, An Zhang, Tat-Seng Chua,
- Abstract要約: 大規模言語モデル(LLM)は、意図的な安全確保努力にもかかわらず、脆弱性を示し続けている。
ポリシー違反のリスクから保護するために、外部ガードモデルによるシステムレベルのモデレーションが一般的な緩和戦略として現れている。
我々は、特定の安全ポリシーの範囲内で堅牢な保護を提供するためのガイド付き安全推論を行う適応型推論ベースの安全ガードであるRSafeを提案する。
- 参考スコア(独自算出の注目度): 45.50156396749566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) continue to exhibit vulnerabilities despite deliberate safety alignment efforts, posing significant risks to users and society. To safeguard against the risk of policy-violating content, system-level moderation via external guard models-designed to monitor LLM inputs and outputs and block potentially harmful content-has emerged as a prevalent mitigation strategy. Existing approaches of training guard models rely heavily on extensive human curated datasets and struggle with out-of-distribution threats, such as emerging harmful categories or jailbreak attacks. To address these limitations, we propose RSafe, an adaptive reasoning-based safeguard that conducts guided safety reasoning to provide robust protection within the scope of specified safety policies. RSafe operates in two stages: 1) guided reasoning, where it analyzes safety risks of input content through policy-guided step-by-step reasoning, and 2) reinforced alignment, where rule-based RL optimizes its reasoning paths to align with accurate safety prediction. This two-stage training paradigm enables RSafe to internalize safety principles to generalize safety protection capability over unseen or adversarial safety violation scenarios. During inference, RSafe accepts user-specified safety policies to provide enhanced safeguards tailored to specific safety requirements.
- Abstract(参考訳): 大きな言語モデル(LLM)は、意図的な安全確保努力にもかかわらず脆弱性を示し続けており、ユーザや社会に重大なリスクをもたらしている。
ポリシー違反のコンテンツのリスクを回避するため、外部ガードモデルによるシステムレベルのモデレーションが設計され、LCMの入力と出力を監視し、潜在的に有害なコンテントをブロックすることが一般的な緩和戦略として浮上した。
既存の訓練ガードモデルのアプローチは、広範囲にキュレートされたデータセットに大きく依存し、有害なカテゴリやジェイルブレイク攻撃のようなアウト・オブ・ディストリビューションの脅威と戦っている。
これらの制約に対処するため、RSafeは、特定の安全ポリシーの範囲内で堅牢な保護を提供するためのガイド付き安全推論を行う適応型推論ベースの安全ガードである。
RSafeは以下の2段階で動作する。
1【政策指導によるステップバイステップ推論による入力コンテンツの安全性リスク分析の指導的推論】
規則に基づくRLは、その推論経路を最適化し、正確な安全性予測と整合する。
この2段階の訓練パラダイムにより、RSafeは安全原則を内部化して、目に見えない、あるいは敵対的な安全違反シナリオに対する安全保護能力を一般化することができる。
推論中、RSafeは、特定の安全要件に合わせて強化された安全ガードを提供するために、ユーザ指定の安全ポリシーを受け入れます。
関連論文リスト
- Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントをトレーニングして、安全性の制約を守りながら、実環境におけるパフォーマンスを最大化することを目的としている。
本稿では,安全なポリシ関数学習を可能にする,SMPO(Safety Modulated Policy Optimization)と呼ばれる新しい安全なRL手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T21:35:22Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning [10.844235123282056]
視覚言語アクションモデル(VLA)は、汎用的なロボットポリシーとしての可能性を示している。
これらのモデルは、環境、ロボット自身、人間への危害のリスクを含む、現実世界の展開中に極端な安全上の課題を生じさせる。
我々は、ISA(Integrated safety approach)を探求し、安全要件を体系的にモデル化し、多様な安全でない振る舞いを積極的に引き出すことによって、この問題に対処する。
論文 参考訳(メタデータ) (2025-03-05T13:16:55Z) - Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は,大規模言語モデル(LLM)における有用性と安全性(無害性)のバランスをとるために,RePO(Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models [5.6874111521946356]
安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示す。
文脈適応型デコード型安全アライメント戦略であるSafeInferを提案する。
HarmEvalは、広範な安全性評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-06-18T05:03:23Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。