論文の概要: Learning Probabilistic Reward Machines from Non-Markovian Stochastic
Reward Processes
- arxiv url: http://arxiv.org/abs/2107.04633v1
- Date: Fri, 9 Jul 2021 19:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 12:59:13.826733
- Title: Learning Probabilistic Reward Machines from Non-Markovian Stochastic
Reward Processes
- Title(参考訳): 非マルコフ確率的リワード過程からの確率的リワードマシンの学習
- Authors: Alvaro Velasquez, Andre Beckus, Taylor Dohmen, Ashutosh Trivedi, Noah
Topper, George Atia
- Abstract要約: 非マルコフ報酬の表現として確率的報酬機(PRM)を導入する。
本稿では,決定プロセスからPRMを学習するアルゴリズムを提案するとともに,所定の意思決定方針のPRM表現を学習するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.800797834097764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of reinforcement learning in typical settings is, in part,
predicated on underlying Markovian assumptions on the reward signal by which an
agent learns optimal policies. In recent years, the use of reward machines has
relaxed this assumption by enabling a structured representation of
non-Markovian rewards. In particular, such representations can be used to
augment the state space of the underlying decision process, thereby
facilitating non-Markovian reinforcement learning. However, these reward
machines cannot capture the semantics of stochastic reward signals. In this
paper, we make progress on this front by introducing probabilistic reward
machines (PRMs) as a representation of non-Markovian stochastic rewards. We
present an algorithm to learn PRMs from the underlying decision process as well
as to learn the PRM representation of a given decision-making policy.
- Abstract(参考訳): 典型的な環境での強化学習の成功は、部分的には、エージェントが最適なポリシーを学ぶ報酬信号に関するマルコフの仮定に基づくものである。
近年、報酬機械の使用は、非マルコフ報酬の構造化表現を可能にしてこの仮定を緩和している。
特に、そのような表現は、基礎となる決定プロセスの状態空間を増大させ、非マルコフ強化学習を容易にするために用いられる。
しかし、これらの報酬機械は、確率的報酬信号のセマンティクスを捉えることができない。
本稿では,非マルコフ確率的報酬の表現として確率的報酬機械(prm)を導入することで,この方向を前進させる。
本稿では,意思決定プロセスからPRMを学習するアルゴリズムと,意思決定方針のPRM表現を学習するアルゴリズムを提案する。
関連論文リスト
- Maximally Permissive Reward Machines [8.425937972214667]
目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
論文 参考訳(メタデータ) (2024-08-15T09:59:26Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。
ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。
単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文 参考訳(メタデータ) (2023-08-28T22:29:16Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Online Learning of Non-Markovian Reward Models [2.064612766965483]
エージェントが進化する環境の力学をモデル化する非マルコフ報酬決定プロセス(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。
我々はAngluinの$L*$アクティブ学習アルゴリズムを用いて、基礎となる非マルコフ報酬マシンを表すMealyマシンを学習する。
論文 参考訳(メタデータ) (2020-09-26T13:54:34Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。