論文の概要: Policy Gradient Primal-Dual Method for Safe Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2604.19024v1
- Date: Tue, 21 Apr 2026 03:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.592895
- Title: Policy Gradient Primal-Dual Method for Safe Reinforcement Learning from Human Feedback
- Title(参考訳): ヒューマンフィードバックからの安全強化学習のためのポリシーグラディエントプライマル・ダイアル法
- Authors: Qiang Liu, Adrienne Kline, Ermin Wei,
- Abstract要約: 安全RLHFを無限水平割引 Con- strained Decision Process (CMDP) として定式化する。
本稿では、報酬モデルフィッティングを必要としない2つのSafe RLHFアルゴリズムを提案する。
我々の知る限りでは、これは人間のフィードバックの下で無限CMDPを研究し、世界的、非漸近的な収束を確立する最初の研究である。
- 参考スコア(独自算出の注目度): 11.48153290349358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe Reinforcement Learning from Human Feedback (Safe RLHF) has recently achieved empirical success in developing helpful and harmless large language models by decoupling human preferences regarding helpfulness and harmlessness. Existing approaches typically rely on fitting fixed horizon reward models from human feedback and have only been validated empirically. In this paper, we formulate safe RLHF as an infinite horizon discounted Con- strained Markov Decision Process (CMDP), since humans may interact with the model over a continuing sequence of interactions rather than within a single finite episode. We propose two Safe RLHF algorithms that do not require reward model fitting and, in contrast to prior work assuming fixed-length trajectories, support flexible trajectory lengths for training. Both algo- rithms are based on the primal-dual method and achieve global convergence guarantees with polynomial rates in terms of policy gradient iterations, trajectory sample lengths, and human preference queries. To the best of our knowledge, this is the first work to study infinite horizon discounted CMDP under human feedback and establish global, non-asymptotic convergence.
- Abstract(参考訳): 人間からの安全強化学習(Safe Reinforcement Learning from Human Feedback, セーフRLHF)は、最近、有益で無害な大規模言語モデルの開発において、有益性と無害性に関する人間の嗜好を分離して実証的な成功を収めた。
既存のアプローチは通常、人間のフィードバックから固定された地平線報酬モデルに適合することに依存しており、経験的にのみ検証されている。
本稿では,人間は1つの有限回以内に留まらず,連続的な相互作用でモデルと対話できるので,安全RLHFを無限水平割引型コンひずみマルコフ決定過程 (CMDP) として定式化する。
本稿では、報酬モデルフィッティングを必要としない2つのSafe RLHFアルゴリズムを提案する。
両リトムは原始双対法に基づいており、ポリシー勾配の反復、軌道サンプル長、人間の嗜好クエリの観点で多項式レートで大域収束を保証する。
我々の知る限りでは、人類のフィードバックの下で無限地平線割引CMDPを調査し、世界的な非漸近収束を確立する最初の研究である。
関連論文リスト
- Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。