論文の概要: REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2312.14436v1
- Date: Fri, 22 Dec 2023 04:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:01:09.667629
- Title: REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback
- Title(参考訳): REBEL:人間のフィードバックによる強化学習におけるリワード過最適化のための正規化に基づく解法
- Authors: Souradip Chakraborty, Amisha Bhaskar, Anukriti Singh, Pratap Tokekar,
Dinesh Manocha, and Amrit Singh Bedi
- Abstract要約: 人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
- 参考スコア(独自算出の注目度): 61.54791065013767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose REBEL, an algorithm for sample efficient reward
regularization based robotic reinforcement learning from human feedback
(RRLHF). Reinforcement learning (RL) performance for continuous control
robotics tasks is sensitive to the underlying reward function. In practice, the
reward function often ends up misaligned with human intent, values, social
norms, etc., leading to catastrophic failures in the real world. We leverage
human preferences to learn regularized reward functions and eventually align
the agents with the true intended behavior. We introduce a novel notion of
reward regularization to the existing RRLHF framework, which is termed as agent
preferences. So, we not only consider human feedback in terms of preferences,
we also propose to take into account the preference of the underlying RL agent
while learning the reward function. We show that this helps to improve the
over-optimization associated with the design of reward functions in RL. We
experimentally show that REBEL exhibits up to 70% improvement in sample
efficiency to achieve a similar level of episodic reward returns as compared to
the state-of-the-art methods such as PEBBLE and PEBBLE+SURF.
- Abstract(参考訳): 本研究では,人間のフィードバック(RRLHF)からのロボット強化学習を応用した,効率的な報酬正規化アルゴリズムREBELを提案する。
連続制御ロボットタスクの強化学習(RL)性能は、基礎となる報酬関数に敏感である。
実際には、報酬機能は人間の意図や価値観、社会的規範などと不一致に陥り、現実世界で壊滅的な失敗に繋がることが多い。
人間の好みを利用して、正規化された報酬機能を学び、最終的にエージェントを真の意図した行動に合わせる。
エージェント選好と呼ばれる既存のRRLHFフレームワークに報酬正規化という新たな概念を導入する。
そこで我々は,人間のフィードバックを嗜好の観点から考えるだけでなく,報酬関数を学習しながら,基礎となるRLエージェントの嗜好を考慮することを提案する。
このことは,RLにおける報酬関数の設計に伴う過度な最適化の改善に役立つことを示す。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上させ,同程度の報酬を得られることを示した。
関連論文リスト
- Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles [16.916111322004557]
ブラックボックスの客観的関数は、ランクのオラクルを通してのみ測定できる。
ゼロ階最適化アルゴリズムZO-RankSGDを導入する。
また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-03-07T09:20:43Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。