論文の概要: Iterative Reward Shaping using Human Feedback for Correcting Reward
Misspecification
- arxiv url: http://arxiv.org/abs/2308.15969v1
- Date: Wed, 30 Aug 2023 11:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:34:14.426337
- Title: Iterative Reward Shaping using Human Feedback for Correcting Reward
Misspecification
- Title(参考訳): 人間のフィードバックを用いた反復的逆方向整形法
- Authors: Jasmina Gajcin, James McCarthy, Rahul Nair, Radu Marinescu, Elizabeth
Daly, Ivana Dusparic
- Abstract要約: ITERSは、人間のフィードバックを用いて、不特定報酬関数の効果を緩和する反復的な報酬形成手法である。
ITERSを3つの環境で評価し,不特定報酬関数の修正に成功していることを示す。
- 参考スコア(独自算出の注目度): 15.453123084827089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A well-defined reward function is crucial for successful training of an
reinforcement learning (RL) agent. However, defining a suitable reward function
is a notoriously challenging task, especially in complex, multi-objective
environments. Developers often have to resort to starting with an initial,
potentially misspecified reward function, and iteratively adjusting its
parameters, based on observed learned behavior. In this work, we aim to
automate this process by proposing ITERS, an iterative reward shaping approach
using human feedback for mitigating the effects of a misspecified reward
function. Our approach allows the user to provide trajectory-level feedback on
agent's behavior during training, which can be integrated as a reward shaping
signal in the following training iteration. We also allow the user to provide
explanations of their feedback, which are used to augment the feedback and
reduce user effort and feedback frequency. We evaluate ITERS in three
environments and show that it can successfully correct misspecified reward
functions.
- Abstract(参考訳): 報酬関数は強化学習(RL)エージェントの訓練の成功に不可欠である。
しかし、適切な報酬関数を定義することは、特に複雑で多目的な環境において、非常に難しい作業である。
開発者はしばしば、最初の、潜在的に不特定な報酬関数から始め、観察された振る舞いに基づいてパラメータを反復的に調整する必要がある。
そこで本研究では,人間フィードバックを用いた反復報酬形成手法であるitersを提案することで,このプロセスを自動化することを目的としている。
本手法では,訓練中のエージェントの行動に対する軌道レベルのフィードバックを提供し,次の訓練イテレーションで報酬シェーピング信号として統合することができる。
また、フィードバックの強化やユーザの努力やフィードバック頻度の低減に使用されるフィードバックの説明をユーザが提供できるようにします。
ITERSを3つの環境で評価し,不特定報酬関数の修正に成功したことを示す。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。