論文の概要: B-Pref: Benchmarking Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.03026v1
- Date: Thu, 4 Nov 2021 17:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 14:47:30.061317
- Title: B-Pref: Benchmarking Preference-Based Reinforcement Learning
- Title(参考訳): b-pref: 好みに基づく強化学習のベンチマーク
- Authors: Kimin Lee, Laura Smith, Anca Dragan, Pieter Abbeel
- Abstract要約: 我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
- 参考スコア(独自算出の注目度): 84.41494283081326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) requires access to a reward function that
incentivizes the right behavior, but these are notoriously hard to specify for
complex tasks. Preference-based RL provides an alternative: learning policies
using a teacher's preferences without pre-defined rewards, thus overcoming
concerns associated with reward engineering. However, it is difficult to
quantify the progress in preference-based RL due to the lack of a commonly
adopted benchmark. In this paper, we introduce B-Pref: a benchmark specially
designed for preference-based RL. A key challenge with such a benchmark is
providing the ability to evaluate candidate algorithms quickly, which makes
relying on real human input for evaluation prohibitive. At the same time,
simulating human input as giving perfect preferences for the ground truth
reward function is unrealistic. B-Pref alleviates this by simulating teachers
with a wide array of irrationalities, and proposes metrics not solely for
performance but also for robustness to these potential irrationalities. We
showcase the utility of B-Pref by using it to analyze algorithmic design
choices, such as selecting informative queries, for state-of-the-art
preference-based RL algorithms. We hope that B-Pref can serve as a common
starting point to study preference-based RL more systematically. Source code is
available at https://github.com/rll-research/B-Pref.
- Abstract(参考訳): 強化学習(rl)は、適切な行動にインセンティブを与える報酬機能にアクセスする必要があるが、複雑なタスクを特定するのが難しいことで悪名高い。
選好ベースのrlは、教師の選好を事前に定義された報酬なしで使用する学習ポリシーを提供する。
しかし、一般的に採用されているベンチマークが欠如しているため、嗜好ベースのRLの進捗を定量化することは困難である。
本稿では、嗜好に基づくRLに特化して設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークの鍵となる課題は、候補アルゴリズムをすばやく評価する能力を提供することである。
同時に、人間の入力を基底的真理報酬関数の完全な選好を与えるようにシミュレートすることは現実的ではない。
b-prefは教師に幅広い不合理性をシミュレートすることでこれを緩和し、パフォーマンスだけでなく、これらの潜在的な不合理性に対する堅牢性も指標として提案している。
本稿では,最先端の選好型rlアルゴリズムのための情報クエリの選択など,アルゴリズム設計の選択を分析することにより,b-prefの有用性を示す。
我々は、B-Prefがより体系的に嗜好に基づくRLを研究するための共通の出発点になることを期待している。
ソースコードはhttps://github.com/rll-research/b-prefで入手できる。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences [23.414135977983953]
嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。
雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
論文 参考訳(メタデータ) (2024-02-27T07:03:25Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。
報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。
提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文 参考訳(メタデータ) (2023-01-30T12:51:13Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。