論文の概要: Implicit Safety Alignment from Crowd Preferences
- arxiv url: http://arxiv.org/abs/2605.21822v1
- Date: Wed, 20 May 2026 23:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.501313
- Title: Implicit Safety Alignment from Crowd Preferences
- Title(参考訳): 観衆の嗜好にかかわる過度な安全アライメント
- Authors: Qian Lin, Daniel S. Brown,
- Abstract要約: 我々は,集団選好データセットに埋め込まれた共通安全性基準に注目し,異なるユーザが異なる選好や目的を表現できる。
本研究の目的は,群集の嗜好から共通安全性基準を発見し,それを下流のRLタスクに転送し,エージェントの動作を規則化し,安全性を強制することである。
そこで本研究では,群衆の嗜好から安全に整合したスキルを抽出する階層的なフレームワークであるSafe Crowd Preference-based RLを提案する。
- 参考スコア(独自算出の注目度): 17.367393128860382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) can reveal implicit objectives such as safety considerations that go beyond task completion. In this work, we focus on the common safety criteria embedded in crowd preference datasets, where different users may express distinct preferences or objectives, yet follow similar safety principles. Our aim is to discover shared safety criteria from crowd preferences and then transfer them to downstream RL tasks to regularize agent behavior and enforce safety. We first show that direct reward combination-optimizing a preference-learned reward model together with downstream task rewards-has inherent limitations. Motivated by this, we propose Safe Crowd Preference-based RL, a hierarchical framework that extracts safety-aligned skills from crowd preferences and composes them via a high-level policy to safely solve downstream tasks. Experiments across safe RL environments and a preliminary LLM-style task with diverse user goals and shared safety constraints demonstrate that our approach substantially lowers safety costs without access to explicit safety rewards, while achieving task performance comparable to oracle methods trained with ground-truth safety signals.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、タスク完了を超える安全上の考慮などの暗黙の目的を明らかにすることができる。
本研究では,集団選好データセットに埋め込まれた共通安全基準に着目し,異なるユーザが異なる選好や目的を表現できるが,同様の安全原則に従う。
本研究の目的は,群集の嗜好から共有安全基準を発見し,下流のRLタスクに伝達することで,エージェントの動作を規則化し,安全性を強制することである。
まず、優先学習型報酬モデルと、ダウンストリームタスク報酬に固有の制約を併用して、直接報酬を最適化することを示す。
そこで本研究では,群衆の嗜好から安全に整合したスキルを抽出する階層的なフレームワークであるSafe Crowd Preference-based RLを提案する。
安全RL環境における実験と,多様なユーザ目標と共有安全制約を備えたLCMスタイルの予備的タスクにより,我々のアプローチは,地中安全信号で訓練されたオラクル手法に匹敵するタスク性能を達成しつつ,明確な安全報酬にアクセスできることなく,安全コストを大幅に削減できることが実証された。
関連論文リスト
- Offline Safe Policy Optimization From Heterogeneous Feedback [35.454656807434006]
報酬の観点からエージェントの行動に関する一対の嗜好に基づいてポリシーを学習するフレームワークと、軌道セグメントの安全性を示すバイナリラベルを導入する。
提案手法は,高い報酬で安全な政策を学習し,最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-12-23T09:07:53Z) - GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners [60.49708196646694]
大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。
本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。
我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-29T08:07:45Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文 参考訳(メタデータ) (2025-06-06T18:05:45Z) - A Provable Approach for End-to-End Safe Reinforcement Learning [17.17447653795906]
安全強化学習(RL)の長年の目標は、プロセス全体を通してポリシーの安全性を確保することである。
本稿では、オフライン安全なRLと安全なポリシー展開を統合するPLS(Provably Lifetime Safe RL)手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T00:48:20Z) - SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。
その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。
SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-26T14:50:01Z) - TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback [15.904640266226023]
安全強化学習(RL)では、エージェントを安全な意思決定に合わせるために補助的な安全コストが使用される。
実際には、コスト関数や予算を含む安全性の制約は、不明または特定が難しい。
我々は、真の安全定義が不明な一般的な設定に対処し、少ないラベル付きデータから学ぶ必要がある。
論文 参考訳(メタデータ) (2025-04-17T01:11:08Z) - Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントをトレーニングして、安全性の制約を守りながら、実環境におけるパフォーマンスを最大化することを目的としている。
本稿では,安全なポリシ関数学習を可能にする,SMPO(Safety Modulated Policy Optimization)と呼ばれる新しい安全なRL手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T21:35:22Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。