論文の概要: Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov
- arxiv url: http://arxiv.org/abs/2401.11325v1
- Date: Sat, 20 Jan 2024 21:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:09:11.511327
- Title: Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov
- Title(参考訳): 隠れトリガーの検出: 非マルコフ報酬関数をマルコフにマッピングする
- Authors: Gregory Hyde, Eugene Santos Jr
- Abstract要約: 本稿では,非マルコフ報酬関数をReward Machineを学習することで,等価なマルコフ関数にマッピングするフレームワークを提案する。
Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。
我々は,Officeworld Domainにおけるブラックボックス非マルコフ・リワード関数を学習することで,我々のアプローチを実証的に検証する。
- 参考スコア(独自算出の注目度): 2.9370710299422607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many Reinforcement Learning algorithms assume a Markov reward function to
guarantee optimality. However, not all reward functions are known to be Markov.
In this paper, we propose a framework for mapping non-Markov reward functions
into equivalent Markov ones by learning a Reward Machine - a specialized reward
automaton. Unlike the general practice of learning Reward Machines, we do not
require a set of high-level propositional symbols from which to learn. Rather,
we learn \emph{hidden triggers} directly from data that encode them. We
demonstrate the importance of learning Reward Machines versus their
Deterministic Finite-State Automata counterparts, for this task, given their
ability to model reward dependencies in a single automaton. We formalize this
distinction in our learning objective. Our mapping process is constructed as an
Integer Linear Programming problem. We prove that our mappings provide
consistent expectations for the underlying process. We empirically validate our
approach by learning black-box non-Markov Reward functions in the Officeworld
Domain. Additionally, we demonstrate the effectiveness of learning dependencies
between rewards in a new domain, Breakfastworld.
- Abstract(参考訳): 多くの強化学習アルゴリズムは最適性を保証するためにマルコフ報酬関数を仮定する。
しかし、全ての報酬関数がマルコフであることが知られているわけではない。
本稿では,非マルコフ報酬関数を等価なマルコフ報酬関数にマッピングするフレームワークを提案する。
Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。
むしろ、エンコードされたデータから直接、 \emph{hidden triggers}を学びます。
本稿では,1つのオートマトンで報酬依存をモデル化できることを考えると,リワードマシンの学習と決定論的有限状態オートマタの学習の重要性を示す。
私たちはこの区別を学習目的に定式化する。
写像過程は整数線形計画問題として構成される。
私たちは、マッピングが基盤となるプロセスに一貫した期待を与えてくれることを証明します。
我々は,Officeworld Domainにおけるブラックボックス非マルコフ・リワード関数を学習することで,我々のアプローチを実証的に検証する。
さらに,新たなドメインであるBreakfastworldにおいて,報酬間の依存関係の学習の有効性を示す。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Learning Reward Machines through Preference Queries over Sequences [19.478224060277775]
我々は、リターンマシンを好みから学習するための新しいアルゴリズムであるREMAPにコントリビュートする。
本研究は,REMAPの正当性と終了の証明に加えて,正当性を測定する実証的証拠を提示する。
論文 参考訳(メタデータ) (2023-08-18T04:49:45Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Reward Propagation Using Graph Convolutional Networks [61.32891095232801]
本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。
我々のアプローチは、強化学習の確率論的推論と組み合わせて、重要な要素として使用するグラフ畳み込みネットワークに依存している。
論文 参考訳(メタデータ) (2020-10-06T04:38:16Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z) - Online Learning of Non-Markovian Reward Models [2.064612766965483]
エージェントが進化する環境の力学をモデル化する非マルコフ報酬決定プロセス(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。
我々はAngluinの$L*$アクティブ学習アルゴリズムを用いて、基礎となる非マルコフ報酬マシンを表すMealyマシンを学習する。
論文 参考訳(メタデータ) (2020-09-26T13:54:34Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。