論文の概要: Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards
- arxiv url: http://arxiv.org/abs/2406.13991v1
- Date: Thu, 20 Jun 2024 04:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:17:16.747458
- Title: Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards
- Title(参考訳): 非マルコフ逆数に対するベイズ逆強化学習
- Authors: Noah Topper, Alvaro Velasquez, George Atia,
- Abstract要約: 逆強化学習(IRL)は、専門家の行動から報酬関数を推定する問題である。
報酬関数は非マルコフ的であり、報酬機械(RM)のような現在の状態以上のものに依存する。
本稿では,専門家の行動からRMを直接推定するためのベイズIRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.2933135237680595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL) is the problem of inferring a reward function from expert behavior. There are several approaches to IRL, but most are designed to learn a Markovian reward. However, a reward function might be non-Markovian, depending on more than just the current state, such as a reward machine (RM). Although there has been recent work on inferring RMs, it assumes access to the reward signal, absent in IRL. We propose a Bayesian IRL (BIRL) framework for inferring RMs directly from expert behavior, requiring significant changes to the standard framework. We define a new reward space, adapt the expert demonstration to include history, show how to compute the reward posterior, and propose a novel modification to simulated annealing to maximize this posterior. We demonstrate that our method performs well when optimizing according to its inferred reward and compares favorably to an existing method that learns exclusively binary non-Markovian rewards.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家の行動から報酬関数を推定する問題である。
IRLにはいくつかのアプローチがあるが、そのほとんどはマルコフの報酬を学ぶために設計されている。
しかし、報酬関数は、報酬機械(RM)のような現在の状態以上のものに依存して、非マルコフ的かもしれない。
RMを推定する研究は近年行われているが、IRLにはない報酬信号へのアクセスを前提としている。
本稿では,専門家の行動からRMを直接推定するためのベイズIRL(BIRL)フレームワークを提案する。
我々は、新しい報酬空間を定義し、専門家のデモンストレーションを履歴を含むように適応させ、報酬を後から計算する方法を示し、この後部を最大化するためにシミュレーションアニーリングに新しい修正を提案する。
提案手法は,推定報酬に応じて最適化する場合に有効であることを示すとともに,非マルコフ報酬のみを学習する既存手法と良好に比較する。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - BC-IRL: Learning Generalizable Reward Functions from Demonstrations [51.535870379280155]
逆強化学習法は、最大エントロピーIRLアプローチと比較して、より一般化された報酬関数を学習する。
我々は、BC-IRLが、説明的な単純なタスクと2つの連続的なロボット制御タスクでより良く一般化する報酬を学習し、一般化設定に挑戦する際のベースラインの成功率の2倍以上を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T17:57:20Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-11T08:35:18Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。