論文の概要: LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy
- arxiv url: http://arxiv.org/abs/2602.17312v1
- Date: Thu, 19 Feb 2026 12:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.023304
- Title: LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy
- Title(参考訳): LexiSafe: Lexicographic Safety-Reward Hierarchyによるオフラインセーフ強化学習
- Authors: Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar,
- Abstract要約: LexiSafeは、安全に配慮した動作を維持するために設計された、レキシグラフのオフラインRLフレームワークである。
我々はまず、標準オフライン安全RLのための単一コスト定式化であるLexiSafe-SCを開発し、安全性違反と性能-最適境界を導出する。
このフレームワークは、複数の安全性コストをサポートし、独自のサンプル・複雑度解析を許容するLexiSafe-MCによって、階層的な安全性要件にまで拡張されます。
- 参考スコア(独自算出の注目度): 7.424386506157414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline safe reinforcement learning (RL) is increasingly important for cyber-physical systems (CPS), where safety violations during training are unacceptable and only pre-collected data are available. Existing offline safe RL methods typically balance reward-safety tradeoffs through constraint relaxation or joint optimization, but they often lack structural mechanisms to prevent safety drift. We propose LexiSafe, a lexicographic offline RL framework designed to preserve safety-aligned behavior. We first develop LexiSafe-SC, a single-cost formulation for standard offline safe RL, and derive safety-violation and performance-suboptimality bounds that together yield sample-complexity guarantees. We then extend the framework to hierarchical safety requirements with LexiSafe-MC, which supports multiple safety costs and admits its own sample-complexity analysis. Empirically, LexiSafe demonstrates reduced safety violations and improved task performance compared to constrained offline baselines. By unifying lexicographic prioritization with structural bias, LexiSafe offers a practical and theoretically grounded approach for safety-critical CPS decision-making.
- Abstract(参考訳): サイバー物理システム(CPS)では、トレーニング中の安全違反は受け入れがたいものであり、事前収集されたデータしか利用できない、オフラインの安全強化学習(RL)がますます重要になっている。
既存のオフライン安全なRL手法は、制約緩和や共同最適化を通じて報酬-安全トレードオフのバランスをとるのが一般的であるが、安全ドリフトを防ぐ構造機構が欠如していることが多い。
本稿では,レキシセーフ(LexiSafe)を提案する。
我々はまず,標準オフライン安全RLの単一コスト定式化であるLexiSafe-SCを開発した。
このフレームワークは、複数の安全性コストをサポートし、独自のサンプル・複雑度解析を許容するLexiSafe-MCによって、階層的な安全性要件にまで拡張されます。
LexiSafeは、制限されたオフラインベースラインと比較して、安全違反の低減とタスクパフォーマンスの改善を実証している。
語彙的優先順位付けと構造バイアスを統一することにより、LexiSafeは安全クリティカルなCPS意思決定に対して実用的で理論的に基礎的なアプローチを提供する。
関連論文リスト
- Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL [21.316556011382932]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。