論文の概要: Certifiable Safe RLHF: Fixed-Penalty Constraint Optimization for Safer Language Models
- arxiv url: http://arxiv.org/abs/2510.03520v1
- Date: Fri, 03 Oct 2025 21:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.088877
- Title: Certifiable Safe RLHF: Fixed-Penalty Constraint Optimization for Safer Language Models
- Title(参考訳): 安全なRLHF:サファー言語モデルに対する固定ペナルティ制約最適化
- Authors: Kartik Pandit, Sourav Ganguly, Arnesh Banerjee, Shaahin Angizi, Arnob Ghosh,
- Abstract要約: 我々は,大規模コーパスでトレーニングされたコストモデルであるCertifiable Safe-RLHFを導入し,セマンティックグラウンドの安全性スコアを割り当てる。
適切にスケールされたペナルティにより、二重変数更新の必要性を排除し、安全制約の実現性を保証することができる。
経験的評価により、CS-RLHFは、名目や脱獄のプロンプトに対して、最先端のモデル応答よりも5倍効率が高いことが示されている。
- 参考スコア(独自算出の注目度): 7.422627253922975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring safety is a foundational requirement for large language models (LLMs). Achieving an appropriate balance between enhancing the utility of model outputs and mitigating their potential for harm is a complex and persistent challenge. Contemporary approaches frequently formalize this problem within the framework of Constrained Markov Decision Processes (CMDPs) and employ established CMDP optimization techniques. However, these methods exhibit two notable limitations. First, their reliance on reward and cost functions renders performance highly sensitive to the underlying scoring mechanism, which must capture semantic meaning rather than being triggered by superficial keywords. Second, CMDP-based training entails tuning dual-variable, a process that is both computationally expensive and does not provide any provable safety guarantee for a fixed dual variable that can be exploitable through adversarial jailbreaks. To overcome these limitations, we introduce Certifiable Safe-RLHF (CS-RLHF) that introduces a cost model trained on a large-scale corpus to assign semantically grounded safety scores. In contrast to the lagrangian-based approach, CS-RLHF adopts a rectified penalty-based formulation. This design draws on the theory of exact penalty functions in constrained optimization, wherein constraint satisfaction is enforced directly through a suitably chosen penalty term. With an appropriately scaled penalty, feasibility of the safety constraints can be guaranteed at the optimizer, eliminating the need for dual-variable updates. Empirical evaluation demonstrates that CS-RLHF outperforms state-of-the-art LLM model responses rendering at-least 5 times efficient against nominal and jail-breaking prompts
- Abstract(参考訳): 安全性を確保することは、大きな言語モデル(LLM)の基本的な要件である。
モデルアウトプットの実用性の向上と害の可能性を緩和する適切なバランスを取ることは、複雑で永続的な課題である。
現代のアプローチでは、この問題をCMDP(Constrained Markov Decision Processs)の枠組みで定式化し、確立されたCMDP最適化手法を採用する。
しかし、これらの手法には2つの重要な制限がある。
まず、報酬とコスト関数への依存は、下層のスコアリングメカニズムに非常に敏感なパフォーマンスをもたらす。
第2に、CMDPベースのトレーニングでは、計算コストが高く、また、敵のジェイルブレイクによって悪用できる固定された二重変数に対して、保証可能な安全保証を提供していない、二重変数のチューニングが必要とされる。
これらの制約を克服するため,CS-RLHF(Certified Safe-RLHF)を導入し,大規模コーパスでトレーニングしたコストモデルを導入し,セマンティックグラウンドの安全性スコアを割り当てる。
ラグランジアンベースのアプローチとは対照的に、CS-RLHFは修正されたペナルティベースの定式化を採用する。
この設計は制約付き最適化における厳密なペナルティ関数の理論に基づいており、制約満足度は適切な選択されたペナルティ項を通じて直接強制される。
適切にスケールされたペナルティにより、オプティマイザで安全制約の実現性を保証することができ、デュアル変数更新の必要性を排除できる。
CS-RLHFは、名目および脱獄プロンプトの5倍の効率で、最先端のLCMモデル応答より優れていることを示す実証的評価
関連論文リスト
- Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - From Uncertain to Safe: Conformal Fine-Tuning of Diffusion Models for Safe PDE Control [16.249515106834355]
偏微分方程式(PDE)制約制御のための深層学習が注目されている。
我々は,安全制約下での最適制御を実現するために,PDE制御のためのセーフ拡散モデル(SafeDiffCon)を提案する。
我々は,1次元バーガー方程式,2次元非圧縮流体,制御核融合問題という3つの制御課題についてSafeDiffConを評価した。
論文 参考訳(メタデータ) (2025-02-04T10:42:30Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Safe Wasserstein Constrained Deep Q-Learning [2.088376060651494]
本稿では,Wasserstein ambiguity セットを利用した分散ロバストなQ-Learningアルゴリズム (DrQ) を提案する。
リチウムイオン電池の高速充電のケーススタディを用いて、理想主義的安全性保証が安全性を全般的に向上させる方法について検討する。
論文 参考訳(メタデータ) (2020-02-07T21:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。