論文の概要: Deep Reinforcement Learning from Hierarchical Weak Preference Feedback
- arxiv url: http://arxiv.org/abs/2309.02632v1
- Date: Wed, 6 Sep 2023 00:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 17:18:37.279770
- Title: Deep Reinforcement Learning from Hierarchical Weak Preference Feedback
- Title(参考訳): 階層的弱選好フィードバックによる深層強化学習
- Authors: Alexander Bukharin, Yixiao Li, Pengcheng He, Weizhu Chen, Tuo Zhao
- Abstract要約: 我々は,新しい実践的強化学習フレームワーク,HERONを提案する。
HERONは、与えられたランクによって誘導される階層的な決定木を用いて軌跡を比較する。
我々のフレームワークは、様々な困難なタスクでハイパフォーマンスエージェントを訓練できるだけでなく、サンプル効率の改善や堅牢性といった付加的なメリットも提供できることがわかりました。
- 参考スコア(独自算出の注目度): 141.40710994023124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward design is a fundamental, yet challenging aspect of practical
reinforcement learning (RL). For simple tasks, researchers typically handcraft
the reward function, e.g., using a linear combination of several reward
factors. However, such reward engineering is subject to approximation bias,
incurs large tuning cost, and often cannot provide the granularity required for
complex tasks. To avoid these difficulties, researchers have turned to
reinforcement learning from human feedback (RLHF), which learns a reward
function from human preferences between pairs of trajectory sequences. By
leveraging preference-based reward modeling, RLHF learns complex rewards that
are well aligned with human preferences, allowing RL to tackle increasingly
difficult problems. Unfortunately, the applicability of RLHF is limited due to
the high cost and difficulty of obtaining human preference data. In light of
this cost, we investigate learning reward functions for complex tasks with less
human effort; simply by ranking the importance of the reward factors. More
specifically, we propose a new RL framework -- HERON, which compares
trajectories using a hierarchical decision tree induced by the given ranking.
These comparisons are used to train a preference-based reward model, which is
then used for policy learning. We find that our framework can not only train
high performing agents on a variety of difficult tasks, but also provide
additional benefits such as improved sample efficiency and robustness. Our code
is available at https://github.com/abukharin3/HERON.
- Abstract(参考訳): リワードデザインは実践的強化学習(RL)の基本的かつ難しい側面である。
単純なタスクでは、研究者は典型的には報酬関数(例えば、いくつかの報酬要素の線形結合)を手作りする。
しかし、このような報酬工学は近似バイアスの対象であり、大きなチューニングコストを伴い、複雑なタスクに必要な粒度を提供できないことが多い。
これらの困難を避けるために、研究者は人間のフィードバック(rlhf)からの学習を強化することに目を向けた。
嗜好に基づく報酬モデリングを活用することで、RLHFは人間の嗜好によく適合する複雑な報酬を学習し、RLはますます困難な問題に取り組むことができる。
残念ながら、RLHFの適用性は、高いコストと人間の嗜好データを得るために制限されている。
このコストを考慮した複雑なタスクに対する報酬関数の学習は,単に報酬要因の重要性をランク付けすることで行う。
より具体的には、与えられたランキングによって引き起こされる階層的決定木を用いて軌跡を比較する新しいrlフレームワークであるheronを提案する。
これらの比較は嗜好に基づく報酬モデルのトレーニングに使用され、政策学習に使用される。
我々のフレームワークは、様々な困難なタスクでハイパフォーマンスエージェントを訓練できるだけでなく、サンプル効率の改善や堅牢性といった付加的なメリットも提供できる。
私たちのコードはhttps://github.com/abukharin3/heronで利用可能です。
関連論文リスト
- Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Interpretable Preference-based Reinforcement Learning with
Tree-Structured Reward Functions [2.741266294612776]
本稿では,木の構造を内在的に解釈して報酬関数を構成するオンライン能動的選好学習アルゴリズムを提案する。
いくつかの環境において,木構造報酬関数のサンプル効率学習を実演し,改良された解釈可能性を活用して,アライメントの探索とデバッグを行う。
論文 参考訳(メタデータ) (2021-12-20T09:53:23Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。