論文の概要: Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.06527v1
- Date: Sat, 12 Nov 2022 00:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:55:08.190137
- Title: Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning
- Title(参考訳): Rewards Encoding Environment Dynamicsは参照型強化学習を改善する
- Authors: Katherine Metcalf and Miguel Sarabia and Barry-John Theobald
- Abstract要約: 本研究では、報酬関数(REED)の符号化環境ダイナミクスにより、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数を劇的に減らすことを示す。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
- 参考スコア(独自算出の注目度): 4.969254618158096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (RL) algorithms help avoid the
pitfalls of hand-crafted reward functions by distilling them from human
preference feedback, but they remain impractical due to the burdensome number
of labels required from the human, even for relatively simple tasks. In this
work, we demonstrate that encoding environment dynamics in the reward function
(REED) dramatically reduces the number of preference labels required in
state-of-the-art preference-based RL frameworks. We hypothesize that REED-based
methods better partition the state-action space and facilitate generalization
to state-action pairs not included in the preference dataset. REED iterates
between encoding environment dynamics in a state-action representation via a
self-supervised temporal consistency task, and bootstrapping the
preference-based reward function from the state-action representation. Whereas
prior approaches train only on the preference-labelled trajectory pairs, REED
exposes the state-action representation to all transitions experienced during
policy training. We explore the benefits of REED within the PrefPPO [1] and
PEBBLE [2] preference learning frameworks and demonstrate improvements across
experimental conditions to both the speed of policy learning and the final
policy performance. For example, on quadruped-walk and walker-walk with 50
preference labels, REED-based reward functions recover 83% and 66% of ground
truth reward policy performance and without REED only 38\% and 21\% are
recovered. For some domains, REED-based reward functions result in policies
that outperform policies trained on the ground truth reward.
- Abstract(参考訳): 嗜好に基づく強化学習(RL)アルゴリズムは、人間の嗜好フィードバックからそれらを蒸留することで、手作りの報酬関数の落とし穴を避けるのに役立つが、比較的単純な作業であっても、人間に必要なラベルが多すぎるため、それらは実用的ではない。
本研究では、報酬関数(REED)における環境ダイナミクスの符号化により、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数が劇的に減少することを示す。
我々は、REEDに基づく手法が状態-作用空間を分割し、優先データセットに含まれない状態-作用ペアへの一般化を容易にすることを仮定する。
REEDは、自己監督された時間的整合性タスクを通じて状態-作用表現の符号化環境ダイナミクスと、状態-作用表現から優先度に基づく報酬関数をブートストラップするの間を反復する。
事前のアプローチでは、優先ラベル付きトラジェクトリペアのみをトレーニングするが、REEDはポリシートレーニング中に経験したすべての遷移に対して状態-アクション表現を公開する。
本稿では, PrefPPO [1] と PEBBLE [2] の嗜好学習フレームワークにおける REED の利点を考察し,政策学習の速度と最終的な政策性能の両方に対する実験条件の改善を実証する。
例えば、50の選好ラベルを持つ四足歩行や歩行では、REEDベースの報酬関数は、真理報酬政策の83%と66%を回復し、REEDなしでは38\%と21\%しか回復しない。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
関連論文リスト
- Sample-Efficient Preference-based Reinforcement Learning with Dynamics
Aware Rewards [2.5101508961934837]
優先度に基づく強化学習(PbRL)は、エージェントの行動に対する二項フィードバックから学習した報酬関数を介して、ロボットの行動と人間の嗜好を一致させる。
本研究では,PbRLの試料効率を桁違いに向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T01:41:34Z) - Reinforcement Learning from Bagged Reward: A Transformer-based Approach
for Instance-Level Reward Redistribution [48.92144929307152]
強化学習(RL)では、エージェントの動作毎に即時報奨信号を生成する。
多くの実世界のアプリケーションでは、即時報酬信号はエージェントによって取得できない。
本稿では,各バッグ内の文脈ニュアンスと時間的依存関係を自己認識機構を用いて解釈するトランスフォーマーベースの報酬モデルReward Bag Transformer (RBT)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Submodular Reinforcement Learning [77.97471858326077]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - DIRECT: Learning from Sparse and Shifting Rewards using Discriminative
Reward Co-Training [13.866486498822228]
深層強化学習アルゴリズムの拡張として,差別的報酬協調学習を提案する。
差別者ネットワークは、現在の政策によって生成されたトラジェクトリと、以前の政策によって生成された有益なトラジェクトリとを区別するポリシーとを同時に訓練する。
DIRECTはスパース・アンド・シフト・リワード環境において最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T10:42:00Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Variance Reduction Based Experience Replay for Policy Optimization [3.4605290959269075]
Variance Reduction Experience Replay (VRER) は、異なるポリシー最適化アルゴリズムとシームレスに統合できる適応可能な方法である。
VRERは、最適ポリシーの学習において顕著な加速を提供し、最先端(SOTA)ポリシー最適化アプローチのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。