論文の概要: Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.06527v1
- Date: Sat, 12 Nov 2022 00:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:55:08.190137
- Title: Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning
- Title(参考訳): Rewards Encoding Environment Dynamicsは参照型強化学習を改善する
- Authors: Katherine Metcalf and Miguel Sarabia and Barry-John Theobald
- Abstract要約: 本研究では、報酬関数(REED)の符号化環境ダイナミクスにより、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数を劇的に減らすことを示す。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
- 参考スコア(独自算出の注目度): 4.969254618158096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (RL) algorithms help avoid the
pitfalls of hand-crafted reward functions by distilling them from human
preference feedback, but they remain impractical due to the burdensome number
of labels required from the human, even for relatively simple tasks. In this
work, we demonstrate that encoding environment dynamics in the reward function
(REED) dramatically reduces the number of preference labels required in
state-of-the-art preference-based RL frameworks. We hypothesize that REED-based
methods better partition the state-action space and facilitate generalization
to state-action pairs not included in the preference dataset. REED iterates
between encoding environment dynamics in a state-action representation via a
self-supervised temporal consistency task, and bootstrapping the
preference-based reward function from the state-action representation. Whereas
prior approaches train only on the preference-labelled trajectory pairs, REED
exposes the state-action representation to all transitions experienced during
policy training. We explore the benefits of REED within the PrefPPO [1] and
PEBBLE [2] preference learning frameworks and demonstrate improvements across
experimental conditions to both the speed of policy learning and the final
policy performance. For example, on quadruped-walk and walker-walk with 50
preference labels, REED-based reward functions recover 83% and 66% of ground
truth reward policy performance and without REED only 38\% and 21\% are
recovered. For some domains, REED-based reward functions result in policies
that outperform policies trained on the ground truth reward.
- Abstract(参考訳): 嗜好に基づく強化学習(RL)アルゴリズムは、人間の嗜好フィードバックからそれらを蒸留することで、手作りの報酬関数の落とし穴を避けるのに役立つが、比較的単純な作業であっても、人間に必要なラベルが多すぎるため、それらは実用的ではない。
本研究では、報酬関数(REED)における環境ダイナミクスの符号化により、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数が劇的に減少することを示す。
我々は、REEDに基づく手法が状態-作用空間を分割し、優先データセットに含まれない状態-作用ペアへの一般化を容易にすることを仮定する。
REEDは、自己監督された時間的整合性タスクを通じて状態-作用表現の符号化環境ダイナミクスと、状態-作用表現から優先度に基づく報酬関数をブートストラップするの間を反復する。
事前のアプローチでは、優先ラベル付きトラジェクトリペアのみをトレーニングするが、REEDはポリシートレーニング中に経験したすべての遷移に対して状態-アクション表現を公開する。
本稿では, PrefPPO [1] と PEBBLE [2] の嗜好学習フレームワークにおける REED の利点を考察し,政策学習の速度と最終的な政策性能の両方に対する実験条件の改善を実証する。
例えば、50の選好ラベルを持つ四足歩行や歩行では、REEDベースの報酬関数は、真理報酬政策の83%と66%を回復し、REEDなしでは38\%と21\%しか回復しない。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
関連論文リスト
- WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文 参考訳(メタデータ) (2024-06-16T03:43:55Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Hindsight PRIORs for Reward Learning from Human Preferences [3.4990427823966828]
嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。
PbRLへの現在のアプローチは、行動のどの部分が優先に最も寄与しているかを決定することに固有の信用割当問題に対処しない。
我々は、世界モデルを用いて軌道内の状態重要度を近似し、報酬を国家重要度に比例するように誘導する信用割当戦略(Hindsight PRIOR)を導入する。
論文 参考訳(メタデータ) (2024-04-12T21:59:42Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - DIRECT: Learning from Sparse and Shifting Rewards using Discriminative
Reward Co-Training [13.866486498822228]
深層強化学習アルゴリズムの拡張として,差別的報酬協調学習を提案する。
差別者ネットワークは、現在の政策によって生成されたトラジェクトリと、以前の政策によって生成された有益なトラジェクトリとを区別するポリシーとを同時に訓練する。
DIRECTはスパース・アンド・シフト・リワード環境において最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T10:42:00Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。