Fugu-MT 論文翻訳(概要): Offline Constrained RLHF with Multiple Preference Oracles

論文の概要: Offline Constrained RLHF with Multiple Preference Oracles

arxiv url: http://arxiv.org/abs/2604.00200v1
Date: Tue, 31 Mar 2026 20:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.704802
Title: Offline Constrained RLHF with Multiple Preference Oracles
Title（参考訳）: 多選好オラクルを用いたオフライン制約RLHF
Authors: Brenden Latham, Mehrdad Moharrami,
Abstract要約: 人からのフィードバックからオフラインの制約付き強化学習について,複数オーラクルを用いて検討した。安全や公正とパフォーマンスをトレードオフするアプリケーションによって動機付けられ,保護された集団福祉制約の対象となる対象人口を最大化することを目的としている。
参考スコア（独自算出の注目度）: 2.7787719874237986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study offline constrained reinforcement learning from human feedback with multiple preference oracles. Motivated by applications that trade off performance with safety or fairness, we aim to maximize target population utility subject to a minimum protected group welfare constraint. From pairwise comparisons collected under a reference policy, we estimate oracle-specific rewards via maximum likelihood and analyze how statistical uncertainty propagates through the dual program. We cast the constrained objective as a KL-regularized Lagrangian whose primal optimizer is a Gibbs policy, reducing learning to a convex dual problem. We propose a dual-only algorithm that ensures high-probability constraint satisfaction and provide the first finite-sample performance guarantees for offline constrained preference learning. Finally, we extend our theoretical analysis to accommodate multiple constraints and general f-divergence regularization.
Abstract（参考訳）: 人からのフィードバックからオフラインの制約付き強化学習について,複数オーラクルを用いて検討した。安全性や公正さとパフォーマンスを両立させるアプリケーションによって動機付けられ、最小保護集団福祉制約の対象となる対象人口利用率を最大化することを目的としている。基準ポリシの下で収集されたペアワイズ比較から、最大可能性によってオラクル固有の報酬を推定し、二重プログラムを通して統計的不確実性がどのように伝播するかを分析する。我々は、制約対象を、主最適化がギブスポリシーであるKL正規化ラグランジアンとし、凸双対問題への学習を減らした。本稿では、高確率制約満足度を保証する双対アルゴリズムを提案し、オフライン制約優先学習のための最初の有限サンプル性能保証を提供する。最後に、複数の制約と一般的なf-分数正規化に対応するように理論解析を拡張した。

論文の概要: Offline Constrained RLHF with Multiple Preference Oracles

関連論文リスト