論文の概要: Configurable Reward Model for Balanced Safety Alignment
- arxiv url: http://arxiv.org/abs/2605.30487v1
- Date: Thu, 28 May 2026 19:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.190003
- Title: Configurable Reward Model for Balanced Safety Alignment
- Title(参考訳): 平衡安全アライメントのための構成可能なリワードモデル
- Authors: Zhengping Jiang, Mehran Khodabandeh, Akash Bharadwaj, Manik Bhandari, Mayur Srungarapu, Anqi Liu, Benjamin Van Durme, Li Chen,
- Abstract要約: 既存の命令調整型大規模言語モデル(LLM)は、新しい安全設定への一般化に失敗することが多い。
本稿では,安全コンプライアンスと報酬モデリングを共同で最適化したCSRM(Safety Reward Model)を紹介する。
その結果、RMはきめ細かい安全設定や会話のニュアンスに敏感になり、これまで見つからなかった安全設定への一般化を大幅に改善した。
- 参考スコア(独自算出の注目度): 48.459540031156955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) to heterogeneous and rapidly evolving safety requirements remains a critical challenge. Existing instruction-tuned LLMs and standalone safety classifiers often fail to generalize to new safety configurations, motivating the need for Reward Models (RMs) that are explicitly configurable to changing specifications. We introduce the Configurable Safety Reward Model (CSRM), which is jointly optimized for calibrated safety compliance and reward modeling. Our approach is supported by configuration-targeted data augmentation that enforces instruction adherence while preserving relative severity structure. The resulting RM is sensitive to fine-grained safety configurations and conversational nuances, substantially improving generalization to previously unseen safety configurations. CSRM achieves state-of-the-art performance on recent configurable safety benchmarks, including CoSApien (94.6% F1) and DynaBench (75.8% F1), without requiring additional human annotation. When used for downstream safety alignment, CSRM yields LLMs with a significantly improved helpfulness-safety tradeoff compared to existing baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)を不均一で急速に進化する安全要件に適応させることは、依然として重要な課題である。
既存の命令調整 LLM とスタンドアロンの安全分類器は、しばしば新しい安全設定への一般化に失敗し、仕様の変更に明示的に設定可能なリワードモデル(RM)の必要性を動機付けている。
本稿では,安全コンプライアンスと報酬モデリングに共同で最適化されたCSRM(Configurable Safety Reward Model)を提案する。
本手法は,比較的厳密な構造を維持しつつ,命令の順守を強制する構成的データ拡張によって支持される。
その結果、RMはきめ細かい安全設定や会話のニュアンスに敏感になり、これまで見つからなかった安全設定への一般化を大幅に改善した。
CSRMは、CoSApien (94.6% F1) やDynaBench (75.8% F1) などの最近の構成可能な安全ベンチマークにおいて、人間のアノテーションを必要とせずに最先端のパフォーマンスを達成する。
下流の安全アライメントに使用すると、CSRM は既存のベースラインに比べて有用性と安全性のトレードオフを著しく改善した LLM を出力する。
関連論文リスト
- BSO: Safety Alignment Is Density Ratio Matching [14.960171907231663]
最適安全政策の可能性は、密度比整合問題に対する安全性の整合性を低下させるクローズドフォーム分解を許容することを示す。
データとモデル比率の差異を最小限に抑えることで、Bregman Safety Optimization (BSO) は単一段の損失関数のファミリーとなり、最適な安全ポリシーを確実に回復する。
安全アライメントベンチマークによる実験は、BSOが一貫して安全ヘルパフルネストレードオフを改善していることを示している。
論文 参考訳(メタデータ) (2026-05-12T16:19:42Z) - RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs [5.100622189286672]
下流タスクのための微調整型セーフティアライメント言語モデルは、拒否動作を著しく低下させる可能性がある。
本稿では,モデル適応時の安全関連構造を保存する表現レベルの微調整フレームワークREFUSALGUARDを紹介する。
論文 参考訳(メタデータ) (2026-05-03T14:48:18Z) - Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines [31.031589383127677]
本稿では,Synthesized Guideline-based Adaptive Safety Alignment (SGASA)フレームワークを紹介する。
モデル生成安全ガイドラインを内包し、敵のプロンプトに対する堅牢性を強化するモデルの能力を強化する。
複数のデータセットにわたる実験により、SGASAはモデルの安全性を大幅に改善し、適応性とスケーラブルな効率性を検証する。
論文 参考訳(メタデータ) (2025-11-26T09:44:32Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。
我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。