論文の概要: REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2312.14436v3
- Date: Sun, 19 Jan 2025 16:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:14:58.362884
- Title: REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback
- Title(参考訳): ReBEL: Reward Regularization-based Approach for Robotic Reinforcement Learning from Human Feedback
- Authors: Souradip Chakraborty, Anukriti Singh, Amisha Bhaskar, Pratap Tokekar, Dinesh Manocha, Amrit Singh Bedi,
- Abstract要約: 報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
- 参考スコア(独自算出の注目度): 61.54791065013767
- License:
- Abstract: The effectiveness of reinforcement learning (RL) agents in continuous control robotics tasks is mainly dependent on the design of the underlying reward function, which is highly prone to reward hacking. A misalignment between the reward function and underlying human preferences (values, social norms) can lead to catastrophic outcomes in the real world especially in the context of robotics for critical decision making. Recent methods aim to mitigate misalignment by learning reward functions from human preferences and subsequently performing policy optimization. However, these methods inadvertently introduce a distribution shift during reward learning due to ignoring the dependence of agent-generated trajectories on the reward learning objective, ultimately resulting in sub-optimal alignment. Hence, in this work, we address this challenge by advocating for the adoption of regularized reward functions that more accurately mirror the intended behaviors of the agent. We propose a novel concept of reward regularization within the robotic RLHF (RL from Human Feedback) framework, which we refer to as \emph{agent preferences}. Our approach uniquely incorporates not just human feedback in the form of preferences but also considers the preferences of the RL agent itself during the reward function learning process. This dual consideration significantly mitigates the issue of distribution shift in RLHF with a computationally tractable algorithm. We provide a theoretical justification for the proposed algorithm by formulating the robotic RLHF problem as a bilevel optimization problem and developing a computationally tractable version of the same. We demonstrate the efficiency of our algorithm {\ours} in several continuous control benchmarks in DeepMind Control Suite \cite{tassa2018deepmind}.
- Abstract(参考訳): 連続制御ロボティクスタスクにおける強化学習(RL)エージェントの有効性は、主に報酬関数の設計に依存する。
報酬関数と根底にある人間の嗜好(価値観、社会的規範)のミスアライメントは、特に批判的な意思決定のためのロボティクスの文脈において、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人選好から報酬関数を学習し、その後、政策最適化を行うことで、不適応を緩和することを目的としている。
しかし,これらの手法は,報酬学習目標に対するエージェント生成軌跡の依存を無視して,報酬学習中の分布変化を必然的に導入し,最終的には準最適アライメントをもたらす。
そこで本研究では,エージェントの意図した振る舞いをより正確に反映した正規化報酬関数の導入を提唱することで,この問題に対処する。
本稿では,ロボットRLHF(RL from Human Feedback)フレームワークにおける報酬正規化の新たな概念を提案する。
提案手法は,人からのフィードバックだけでなく,報酬関数学習過程におけるRLエージェント自体の嗜好も考慮している。
この2つの考察は、計算可能アルゴリズムによるRLHFの分布シフトの問題を大幅に緩和する。
本稿では,ロボットRLHF問題を二段階最適化問題として定式化し,計算処理可能なバージョンを開発することにより,提案アルゴリズムを理論的に正当化する。
本稿では,DeepMind Control Suite \cite{tassa2018deepmind} の連続制御ベンチマークにおいて,アルゴリズムの効率を実証する。
関連論文リスト
- Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles [16.916111322004557]
ブラックボックスの客観的関数は、ランクのオラクルを通してのみ測定できる。
ゼロ階最適化アルゴリズムZO-RankSGDを導入する。
また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-03-07T09:20:43Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。