論文の概要: RA-RLHF: Provably Efficient Risk-Aware Reinforcement Learning Human Feedback
- arxiv url: http://arxiv.org/abs/2410.23569v2
- Date: Tue, 24 Dec 2024 15:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:52:23.755030
- Title: RA-RLHF: Provably Efficient Risk-Aware Reinforcement Learning Human Feedback
- Title(参考訳): RA-RLHF: 効果的なリスク認識強化学習
- Authors: Yujie Zhao, Jose Efraim Aguilar Escamill, Weyl Lu, Huazheng Wang,
- Abstract要約: 強化学習 ヒューマンフィードバックは、エージェントが各エピソードにおける一対の軌跡よりも好みしか受け取らない問題を研究する。
従来のリスク対応の目標とアルゴリズムは、そのような一段階のリワード設定には適用できない。
本稿では,ネストと静的の両方の目的を最適化するアルゴリズムであるRA-RLHFを紹介する。
- 参考スコア(独自算出の注目度): 7.407106653769627
- License:
- Abstract: Reinforcement Learning Human Feedback (RLHF) studies the problem where agents receive only preferences over pairs of trajectories in each episode. Traditional approaches in this field have predominantly focused on the mean reward or utility criterion. However, in RLHF scenarios demanding heightened risk awareness, such as in AI systems, healthcare, and agriculture, risk-aware measures are requisite. Traditional risk-aware objectives and algorithms are not applicable in such one-episode-reward settings. To address this, we explore and prove the applicability of two risk-aware objectives to RLHF: nested and static quantile risk objectives. We also introduce Risk-Aware-RLHF (RA-RLHF), an algorithm designed to optimize both nested and static objectives. Additionally, we provide a theoretical analysis of the regret upper bounds, demonstrating that they are sublinear with respect to the number of episodes, and present empirical results to support our findings. Our code is available in https://github.com/aguilarjose11/pbrlNeurips.
- Abstract(参考訳): Reinforcement Learning Human Feedback (RLHF) は、エージェントが各エピソードにおける一対の軌跡よりも優先される問題を研究する。
この分野の伝統的なアプローチは、平均的な報酬または実用的基準に主に焦点を合わせてきた。
しかし、RLHFのシナリオでは、AIシステム、医療、農業などのリスク認識を高めることが要求されるため、リスク認識対策が不可欠である。
従来のリスク対応の目標とアルゴリズムは、そのような一段階のリワード設定には適用できない。
この問題に対処するために、ネストされたリスクと静的な量子的リスクの2つの目標がRLHFに適用可能であることを調査し、証明する。
また,ネスト対象と静的対象の両方を最適化するアルゴリズムであるRA-RLHFを導入する。
さらに, 後悔の上界を理論的に解析し, エピソード数に関してサブラインであることを示すとともに, 実験結果を示す。
私たちのコードはhttps://github.com/aguilarjose11/pbrlNeuripsで利用可能です。
関連論文リスト
- Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals? [33.11148546999906]
主な関心事は、テキスト構造収束(textitinstrumental convergence)である。AIシステムは、究極の目標を覆い、人間の意図した目標から逸脱する意図しない中間目標を開発する。
この問題は特に強化学習(RL)訓練モデルに関係しており、報酬を最大化するために創造的だが意図しない戦略を生成することができる。
また,RL駆動モデルでは,目標指向行動の最適化が人間の意図に反する可能性があるため,楽器収束の傾向が強いことを示す。
論文 参考訳(メタデータ) (2025-02-16T16:29:20Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。