論文の概要: Online Learning of Non-Markovian Reward Models
- arxiv url: http://arxiv.org/abs/2009.12600v2
- Date: Wed, 30 Sep 2020 08:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:54:36.859237
- Title: Online Learning of Non-Markovian Reward Models
- Title(参考訳): 非マルコフ報酬モデルのオンライン学習
- Authors: Gavin Rens, Jean-Fran\c{c}ois Raskin, Rapha\"el Reynouad, Giuseppe
Marra
- Abstract要約: エージェントが進化する環境の力学をモデル化する非マルコフ報酬決定プロセス(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。
我々はAngluinの$L*$アクティブ学習アルゴリズムを用いて、基礎となる非マルコフ報酬マシンを表すMealyマシンを学習する。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are situations in which an agent should receive rewards only after
having accomplished a series of previous tasks, that is, rewards are
non-Markovian. One natural and quite general way to represent history-dependent
rewards is via a Mealy machine, a finite state automaton that produces output
sequences from input sequences. In our formal setting, we consider a Markov
decision process (MDP) that models the dynamics of the environment in which the
agent evolves and a Mealy machine synchronized with this MDP to formalize the
non-Markovian reward function. While the MDP is known by the agent, the reward
function is unknown to the agent and must be learned.
Our approach to overcome this challenge is to use Angluin's $L^*$ active
learning algorithm to learn a Mealy machine representing the underlying
non-Markovian reward machine (MRM). Formal methods are used to determine the
optimal strategy for answering so-called membership queries posed by $L^*$.
Moreover, we prove that the expected reward achieved will eventually be at
least as much as a given, reasonable value provided by a domain expert. We
evaluate our framework on three problems. The results show that using $L^*$ to
learn an MRM in a non-Markovian reward decision process is effective.
- Abstract(参考訳): エージェントが報酬を受けるべき状況は、一連の以前のタスクを完了した後、すなわち報酬が非マルコフ的である場合に限られる。
歴史に依存した報酬を表現する自然な方法として、入力シーケンスから出力シーケンスを生成する有限状態オートマトンであるMealy Machineがある。
公式設定では,エージェントが進化する環境のダイナミクスをモデル化するマルコフ決定プロセス (mdp) と,非マルコフ報酬関数を定式化するためにこのmdpと同期する食事機械を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。
この課題を克服するために、Angluinの$L^*$アクティブラーニングアルゴリズムを使用して、基礎となる非マルコフ報酬マシン(MRM)を表すMealyマシンを学習する。
形式的手法は、$l^*$で与えられるいわゆる会員クエリに答える最適戦略を決定するために用いられる。
さらに、達成される期待された報酬が、ドメインエキスパートが提供した所定の妥当な価値の少なくとも1つとなることを証明します。
枠組みを3つの問題で評価する。
その結果,非マルコフ報酬決定プロセスにおけるMRM学習には$L^*$が有効であることが示唆された。
関連論文リスト
- Efficient Reinforcement Learning in Probabilistic Reward Machines [15.645062155050732]
本稿では,PRM(Probabilistic Reward Machines)のアルゴリズムを設計し,$widetildeO(sqrtHOAT)の償却を達成した。
また,非マルコフ報酬に対する新たなシミュレーション補題を提案し,非マルコフ報酬に対する報酬のない探索を可能にする。
論文 参考訳(メタデータ) (2024-08-19T19:51:53Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov [2.486161976966064]
本稿では,非マルコフ報酬関数を等価なマルコフ関数に変換するためのフレームワークを提案する。
Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。
私たちは、Officeworldドメインでブラックボックス、非マルコフ報酬関数を学習することで、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2024-01-20T21:09:27Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Learning Probabilistic Reward Machines from Non-Markovian Stochastic
Reward Processes [8.800797834097764]
非マルコフ報酬の表現として確率的報酬機(PRM)を導入する。
本稿では,決定プロセスからPRMを学習するアルゴリズムを提案するとともに,所定の意思決定方針のPRM表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-09T19:00:39Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Learning and Solving Regular Decision Processes [15.533842336139067]
RDP(Regular Decision Processs)は、非マルコフ力学と報酬を用いてMDPを拡張するモデルである。
本研究では,履歴クラスタリングによる自動学習技術を活用して,MCTSを適応させることで,Mealyマシンを学習し,それを解決する。
論文 参考訳(メタデータ) (2020-03-02T16:36:16Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。