論文の概要: Crowd-PrefRL: Preference-Based Reward Learning from Crowds
- arxiv url: http://arxiv.org/abs/2401.10941v2
- Date: Thu, 20 Mar 2025 12:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 22:26:25.545589
- Title: Crowd-PrefRL: Preference-Based Reward Learning from Crowds
- Title(参考訳): Crowd-PrefRL: 群衆からの嗜好に基づくリワード学習
- Authors: David Chhan, Ellen Novoseller, Vernon J. Lawhern,
- Abstract要約: クラウドソーシング技術と嗜好に基づく強化学習アプローチを統合する概念的フレームワークであるCrowd-PrefRLを導入する。
予備的な結果は,未知の専門知識と信頼性を持つ群衆が提供した嗜好フィードバックから,報酬関数とエージェントポリシーを学習できることを示唆している。
提案手法は, 群衆内における少数視点の存在を, 教師なしの方法で識別できることが示唆された。
- 参考スコア(独自算出の注目度): 0.4439066410935887
- License:
- Abstract: Preference-based reinforcement learning (RL) provides a framework to train AI agents using human feedback through preferences over pairs of behaviors, enabling agents to learn desired behaviors when it is difficult to specify a numerical reward function. While this paradigm leverages human feedback, it typically treats the feedback as given by a single human user. However, different users may desire multiple AI behaviors and modes of interaction. Meanwhile, incorporating preference feedback from crowds (i.e. ensembles of users) in a robust manner remains a challenge, and the problem of training RL agents using feedback from multiple human users remains understudied. In this work, we introduce a conceptual framework, Crowd-PrefRL, that integrates preference-based RL approaches with techniques from unsupervised crowdsourcing to enable training of autonomous system behaviors from crowdsourced feedback. We show preliminary results suggesting that Crowd-PrefRL can learn reward functions and agent policies from preference feedback provided by crowds of unknown expertise and reliability. We also show that in most cases, agents trained with Crowd-PrefRL outperform agents trained with majority-vote preferences or preferences from any individual user, especially when the spread of user error rates among the crowd is large. Results further suggest that our method can identify the presence of minority viewpoints within the crowd in an unsupervised manner.
- Abstract(参考訳): 優先度に基づく強化学習(RL)は、人間のフィードバックを使ってAIエージェントを訓練するためのフレームワークを提供する。
このパラダイムは人間のフィードバックを活用するが、通常は1人の人間のユーザによって与えられるフィードバックを扱う。
しかし、異なるユーザーは複数のAIの振る舞いやインタラクションのモードを望んでいるかもしれない。
一方、観客からの選好フィードバック(すなわち、ユーザのアンサンブル)を頑健な方法で取り入れることは依然として課題であり、複数のユーザーからのフィードバックを用いてRLエージェントを訓練する問題は検討されていない。
本研究では,クラウドソースフィードバックから自律的なシステム行動のトレーニングを可能にするために,選好に基づくRLアプローチをクラウドソーシングのテクニックと統合した概念的フレームワークであるCrowd-PrefRLを紹介する。
本稿では,未知の専門知識と信頼性を有する群衆が提供した嗜好フィードバックから報酬関数とエージェントポリシーを学習できることを示す予備的な結果を示す。
また、多くの場合において、特に群衆間のユーザエラー率の拡散が大きい場合には、多数投票の好みや好みで訓練されたエージェントよりも、Crowd-PrefRLで訓練されたエージェントの方が優れていることを示す。
さらに,本手法は,群衆内における少数視点の存在を教師なしの方法で識別できることが示唆された。
関連論文リスト
- Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Reinforcement Learning from Statistical Feedback: the Journey from AB
Testing to ANT Testing [1.1142354615369272]
RLHF(Reinforcement Learning from Human Feedback)は、ChatGPTのような大規模モデルの成功において重要な役割を担っている。
ABテストを用いて、人間のフィードバックではなく統計的ビジネスフィードバックでこのギャップを埋めようとしている。
統計的推論法は、事前訓練されたモデルを微調整する報奨ネットワークを訓練するための選好を得るために用いられる。
論文 参考訳(メタデータ) (2023-11-24T07:50:52Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。