論文の概要: Learning Reward Machines from Partially Observed Optimal Policies
- arxiv url: http://arxiv.org/abs/2502.03762v1
- Date: Thu, 06 Feb 2025 03:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:21.710078
- Title: Learning Reward Machines from Partially Observed Optimal Policies
- Title(参考訳): 部分観測型最適解法からリワードマシンを学習する
- Authors: Mohamad Louai Shehab, Antoine Aspeel, Necmiye Ozay,
- Abstract要約: 逆強化学習は、最適政策から報酬関数を推定する問題である。
我々の目標は、有限情報を用いて真の報奨機を特定することである。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License:
- Abstract: Inverse reinforcement learning is the problem of inferring a reward function from an optimal policy. In this work, it is assumed that the reward is expressed as a reward machine whose transitions depend on atomic propositions associated with the state of a Markov Decision Process (MDP). Our goal is to identify the true reward machine using finite information. To this end, we first introduce the notion of a prefix tree policy which associates a distribution of actions to each state of the MDP and each attainable finite sequence of atomic propositions. Then, we characterize an equivalence class of reward machines that can be identified given the prefix tree policy. Finally, we propose a SAT-based algorithm that uses information extracted from the prefix tree policy to solve for a reward machine. It is proved that if the prefix tree policy is known up to a sufficient (but finite) depth, our algorithm recovers the exact reward machine up to the equivalence class. This sufficient depth is derived as a function of the number of MDP states and (an upper bound on) the number of states of the reward machine. Several examples are used to demonstrate the effectiveness of the approach.
- Abstract(参考訳): 逆強化学習は、最適政策から報酬関数を推定する問題である。
本研究では、報酬は、マルコフ決定過程(MDP)の状態に関連する原子命題に依存する報酬機械として表現されると仮定する。
我々の目標は、有限情報を用いて真の報奨機を特定することである。
この目的のために、まず、MDPの各状態と到達可能な原子命題の有限列に作用の分布を関連付けるプレフィックスツリーポリシーの概念を導入する。
次に、プレフィックスツリーポリシーから識別できる等価な報酬機を特徴付ける。
最後に,プレフィックスツリーポリシーから抽出した情報を用いて報奨機械の解を求めるSATアルゴリズムを提案する。
プレフィックスツリーポリシーが十分(しかし有限)の深さまで知っていれば、アルゴリズムは同値クラスまで正確な報酬マシンを復元する。
この十分深さは、MDP状態の数と(上界)報酬機の状態の数の関数として導かれる。
このアプローチの有効性を示すために、いくつかの例が使用されます。
関連論文リスト
- Off-Policy Maximum Entropy RL with Future State and Action Visitation Measures [1.75493501156941]
本稿では,政策が訪れた状態と行動の分布に基づく,新たな最大エントロピー強化学習フレームワークを提案する。
それぞれの州と行動について、本質的な報酬は、次のステップで訪れた州と行動の割引された分配の相対的なエントロピーである。
論文 参考訳(メタデータ) (2024-12-09T16:56:06Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Simplified Belief-Dependent Reward MCTS Planning with Guaranteed Tree
Consistency [11.688030627514532]
部分的に観測可能なマルコフ決定プロセス(POMDP)は解決が難しいことで知られている。
ほとんどの最先端のオンライン問題解決者はモンテカルロ木探索(MCTS)のアイデアを活用している。
本稿では,情報理論的な報奨を考慮したMCTSアルゴリズムの新たな変種を提案する。
論文 参考訳(メタデータ) (2021-05-29T07:25:11Z) - Online Learning of Non-Markovian Reward Models [2.064612766965483]
エージェントが進化する環境の力学をモデル化する非マルコフ報酬決定プロセス(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。
我々はAngluinの$L*$アクティブ学習アルゴリズムを用いて、基礎となる非マルコフ報酬マシンを表すMealyマシンを学習する。
論文 参考訳(メタデータ) (2020-09-26T13:54:34Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。