論文の概要: Crowd-PrefRL: Preference-Based Reward Learning from Crowds
- arxiv url: http://arxiv.org/abs/2401.10941v1
- Date: Wed, 17 Jan 2024 18:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-28 15:57:39.529588
- Title: Crowd-PrefRL: Preference-Based Reward Learning from Crowds
- Title(参考訳): crowd-prefrl: 選好に基づく報酬学習
- Authors: David Chhan, Ellen Novoseller, Vernon J. Lawhern
- Abstract要約: 選好に基づく強化学習を行うフレームワークであるCrowd-PrefRLを紹介する。
この研究は、未知の専門知識と信頼性の群衆が提供した嗜好フィードバックから得られる報酬関数の学習可能性を示す。
クラウドプレフRLで訓練されたエージェントは、ほとんどの場合、多数投票の好みや好みで訓練されたエージェントよりも優れていた。
- 参考スコア(独自算出の注目度): 0.4989065785426849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (RL) provides a framework to train
agents using human feedback through pairwise preferences over pairs of
behaviors, enabling agents to learn desired behaviors when it is difficult to
specify a numerical reward function. While this paradigm leverages human
feedback, it currently treats the feedback as given by a single human user.
Meanwhile, incorporating preference feedback from crowds (i.e. ensembles of
users) in a robust manner remains a challenge, and the problem of training RL
agents using feedback from multiple human users remains understudied. In this
work, we introduce Crowd-PrefRL, a framework for performing preference-based RL
leveraging feedback from crowds. This work demonstrates the viability of
learning reward functions from preference feedback provided by crowds of
unknown expertise and reliability. Crowd-PrefRL not only robustly aggregates
the crowd preference feedback, but also estimates the reliability of each user
within the crowd using only the (noisy) crowdsourced preference comparisons.
Most importantly, we show that agents trained with Crowd-PrefRL outperform
agents trained with majority-vote preferences or preferences from any
individual user in most cases, especially when the spread of user error rates
among the crowd is large. Results further suggest that our method can identify
minority viewpoints within the crowd.
- Abstract(参考訳): 優先度に基づく強化学習(RL)は、行動のペアよりもペアの選好を通じて人間のフィードバックを用いてエージェントを訓練するフレームワークを提供する。
このパラダイムは人間のフィードバックを活用するが、現在は1人の人間のユーザによるフィードバックを処理している。
一方、群衆(すなわち利用者のアンサンブル)からの選好フィードバックを堅牢に取り入れることは課題であり、複数のユーザからのフィードバックを使ってrlエージェントを訓練する問題は未解決である。
本研究では,観衆からのフィードバックを活かした嗜好に基づくRLを実現するフレームワークであるCrowd-PrefRLを紹介する。
本研究は,未知の知識と信頼性を持つ群集の選好フィードバックから報奨機能を学習する可能性を示す。
Crowd-PrefRLは、群衆の選好フィードバックを頑健に集約するだけでなく、(騒々しい)クラウドソースによる選好比較のみを使用して、群衆内の各ユーザの信頼性を推定する。
最も重要なことは、特に群衆間でのユーザエラー率の拡散が大きい場合、多数投票の好みや好みで訓練されたエージェントよりも、Crowd-PrefRLで訓練されたエージェントの方が優れていることである。
さらに,本手法が群集内の少数派視点を識別できることが示唆された。
関連論文リスト
- Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Reinforcement Learning from Statistical Feedback: the Journey from AB
Testing to ANT Testing [1.1142354615369272]
RLHF(Reinforcement Learning from Human Feedback)は、ChatGPTのような大規模モデルの成功において重要な役割を担っている。
ABテストを用いて、人間のフィードバックではなく統計的ビジネスフィードバックでこのギャップを埋めようとしている。
統計的推論法は、事前訓練されたモデルを微調整する報奨ネットワークを訓練するための選好を得るために用いられる。
論文 参考訳(メタデータ) (2023-11-24T07:50:52Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。