論文の概要: Offline Constrained RLHF with Multiple Preference Oracles
- arxiv url: http://arxiv.org/abs/2604.00200v1
- Date: Tue, 31 Mar 2026 20:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.704802
- Title: Offline Constrained RLHF with Multiple Preference Oracles
- Title(参考訳): 多選好オラクルを用いたオフライン制約RLHF
- Authors: Brenden Latham, Mehrdad Moharrami,
- Abstract要約: 人からのフィードバックからオフラインの制約付き強化学習について,複数オーラクルを用いて検討した。
安全や公正とパフォーマンスをトレードオフするアプリケーションによって動機付けられ,保護された集団福祉制約の対象となる対象人口を最大化することを目的としている。
- 参考スコア(独自算出の注目度): 2.7787719874237986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline constrained reinforcement learning from human feedback with multiple preference oracles. Motivated by applications that trade off performance with safety or fairness, we aim to maximize target population utility subject to a minimum protected group welfare constraint. From pairwise comparisons collected under a reference policy, we estimate oracle-specific rewards via maximum likelihood and analyze how statistical uncertainty propagates through the dual program. We cast the constrained objective as a KL-regularized Lagrangian whose primal optimizer is a Gibbs policy, reducing learning to a convex dual problem. We propose a dual-only algorithm that ensures high-probability constraint satisfaction and provide the first finite-sample performance guarantees for offline constrained preference learning. Finally, we extend our theoretical analysis to accommodate multiple constraints and general f-divergence regularization.
- Abstract(参考訳): 人からのフィードバックからオフラインの制約付き強化学習について,複数オーラクルを用いて検討した。
安全性や公正さとパフォーマンスを両立させるアプリケーションによって動機付けられ、最小保護集団福祉制約の対象となる対象人口利用率を最大化することを目的としている。
基準ポリシの下で収集されたペアワイズ比較から、最大可能性によってオラクル固有の報酬を推定し、二重プログラムを通して統計的不確実性がどのように伝播するかを分析する。
我々は、制約対象を、主最適化がギブスポリシーであるKL正規化ラグランジアンとし、凸双対問題への学習を減らした。
本稿では、高確率制約満足度を保証する双対アルゴリズムを提案し、オフライン制約優先学習のための最初の有限サンプル性能保証を提供する。
最後に、複数の制約と一般的なf-分数正規化に対応するように理論解析を拡張した。
関連論文リスト
- Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。