論文の概要: Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control
- arxiv url: http://arxiv.org/abs/2603.10938v1
- Date: Wed, 11 Mar 2026 16:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.053988
- Title: Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control
- Title(参考訳): 安全RLHFは予想を超える-普遍的なスペクトルリスク制御のための確率的支配
- Authors: Yaswanth Chittepu, Ativ Joshi, Rajarshi Bhattacharjee, Scott Niekum,
- Abstract要約: 本稿では,予測コスト制約をFSD(First-Order Dominance)制約に置き換える,リスクに敏感なアライメントフレームワークを提案する。
RADは, 有効性を保ちながら, ベースラインよりも無害性を向上し, アウト・オブ・ディストリビューション評価においてより堅牢性を示す。
- 参考スコア(独自算出の注目度): 12.053369001333058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe Reinforcement Learning from Human Feedback (RLHF) typically enforces safety through expected cost constraints, but the expectation captures only a single statistic of the cost distribution and fails to account for distributional uncertainty, particularly under heavy tails or rare catastrophic events. This limitation is problematic when robustness and risk sensitivity are critical. Stochastic dominance offers a principled alternative by comparing entire cost distributions rather than just their averages, enabling direct control over tail risks and potential out-of-distribution failures that expectation-based constraints may overlook. In this work, we propose Risk-sensitive Alignment via Dominance (RAD), a novel alignment framework that replaces scalar expected cost constraints with First-Order Stochastic Dominance (FSD) constraints. We operationalize this constraint by comparing the target policy's cost distribution to that of a reference policy within an Optimal Transport (OT) framework, using entropic regularization and Sinkhorn iterations to obtain a differentiable and computationally efficient objective for stable end-to-end optimization. Furthermore, we introduce quantile-weighted FSD constraints and show that weighted FSD universally controls a broad class of Spectral Risk Measures (SRMs), so that improvements under weighted dominance imply guaranteed improvements in the corresponding spectral risk. This provides a principled mechanism for tuning a model's risk profile via the quantile weighting function. Empirical results demonstrate that RAD improves harmlessness over baselines while remaining competitive in helpfulness, and exhibits greater robustness on out-of-distribution harmlessness evaluations.
- Abstract(参考訳): 人間のフィードバックからの安全強化学習(RLHF)は通常、期待されるコスト制約を通じて安全性を強制するが、予測は、コスト分布の1つの統計のみを捉え、特に重い尾や稀な破滅的な出来事の下では、分布の不確実性を考慮することができない。
この制限は、堅牢性とリスク感度が重要である場合に問題となる。
確率的支配(Stochastic dominance)は、平均よりもコスト分布全体を比較して、予測に基づく制約が見過ごされる可能性のある、テールリスクと潜在的なアウト・オブ・ディストリビューション障害を直接制御可能にする、原則的な代替手段を提供する。
本研究では、スカラー予測コスト制約をFSD(First-Order Stochastic Dominance)制約に置き換える新しいアライメントフレームワークである、Dominance(RAD)によるリスク敏感なアライメントを提案する。
我々は,この制約を,エントロピー正規化とシンクホーン反復を用いて,目標ポリシのコスト分布と最適輸送(OT)フレームワークの基準ポリシとを比較して,安定なエンドツーエンド最適化のための微分可能かつ計算効率のよい目標を得る。
さらに、量子重み付きFSD制約を導入し、重み付きFSDが幅広いスペクトルリスク対策(SRM)を普遍的に制御していることを示し、重み付き支配による改善が対応するスペクトルリスクの改善を確実に保証していることを示す。
これは、量子重み付け関数を介してモデルのリスクプロファイルをチューニングするための原則化されたメカニズムを提供する。
実証実験の結果,RADは基線よりも無害性を向上し,無害性評価に高いロバスト性を示すことがわかった。
関連論文リスト
- DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents [29.698100324454362]
制約付き最適化は強化学習(RL)における競合する目的を扱う共通のフレームワークを提供する
本稿では,最適化された確実性等価量(OCE)を用いて,報酬値と時間とともにステージごとの特性を示すリスク対応制約付きRLの枠組みを提案する。
本フレームワークは,パラメータ化された強ラグランジアン双対性フレームワークにおいて,適切な制約条件下での元の制約問題と正確に一致することを保証している。
論文 参考訳(メタデータ) (2025-10-23T04:33:32Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Conditional Conformal Risk Adaptation [9.559062601251464]
セグメンテーションタスクの条件付きリスク制御を大幅に改善する適応予測セットを作成するための新しいスコア関数を開発する。
画素単位での包含推定の信頼性を高めるための特殊確率校正フレームワークを提案する。
ポリープセグメンテーション実験により, 3つの手法が有意な限界リスク制御を提供し, より一貫した条件リスク制御を実現することを示した。
論文 参考訳(メタデータ) (2025-04-10T10:01:06Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [9.591164070876689]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。