論文の概要: Joint Learning of Reward Machines and Policies in Environments with
Partially Known Semantics
- arxiv url: http://arxiv.org/abs/2204.11833v1
- Date: Wed, 20 Apr 2022 19:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-01 09:22:33.190422
- Title: Joint Learning of Reward Machines and Policies in Environments with
Partially Known Semantics
- Title(参考訳): 部分的既知意味論をもつ環境における報酬機械と政策の合同学習
- Authors: Christos Verginis, Cevahir Koprulu, Sandeep Chinchali, Ufuk Topcu
- Abstract要約: 報奨機で符号化されたタスクに対する強化学習の課題について検討する。
我々は,その実行方法を学習しながら,その基礎となるタスクを符号化する報奨機を推論するアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 22.23492660028747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of reinforcement learning for a task encoded by a reward
machine. The task is defined over a set of properties in the environment,
called atomic propositions, and represented by Boolean variables. One
unrealistic assumption commonly used in the literature is that the truth values
of these propositions are accurately known. In real situations, however, these
truth values are uncertain since they come from sensors that suffer from
imperfections. At the same time, reward machines can be difficult to model
explicitly, especially when they encode complicated tasks. We develop a
reinforcement-learning algorithm that infers a reward machine that encodes the
underlying task while learning how to execute it, despite the uncertainties of
the propositions' truth values. In order to address such uncertainties, the
algorithm maintains a probabilistic estimate about the truth value of the
atomic propositions; it updates this estimate according to new sensory
measurements that arrive from the exploration of the environment. Additionally,
the algorithm maintains a hypothesis reward machine, which acts as an estimate
of the reward machine that encodes the task to be learned. As the agent
explores the environment, the algorithm updates the hypothesis reward machine
according to the obtained rewards and the estimate of the atomic propositions'
truth value. Finally, the algorithm uses a Q-learning procedure for the states
of the hypothesis reward machine to determine the policy that accomplishes the
task. We prove that the algorithm successfully infers the reward machine and
asymptotically learns a policy that accomplishes the respective task.
- Abstract(参考訳): 報奨機で符号化されたタスクに対する強化学習の問題について検討する。
このタスクは、原子命題と呼ばれる環境内のプロパティのセット上で定義され、ブール変数で表される。
文献でよく使われる非現実的な仮定の一つは、これらの命題の真理値が正確に知られていることである。
しかし、実際の状況では、これらの真理値が不完全なセンサーから来ているため、不確実である。
同時に、特に複雑なタスクをエンコードする場合、報酬機械は明示的にモデル化することが難しい。
提案の真理値の不確実性に拘わらず,実行方法を学習しながら基礎タスクをエンコードする報酬機械を推定する強化学習アルゴリズムを開発した。
このような不確実性に対処するために、このアルゴリズムは原子命題の真理値に関する確率的推定を保ち、環境の探索からもたらされた新しい感覚測定に基づいてこの推定値を更新する。
さらに、アルゴリズムは、学習すべきタスクをエンコードする報酬マシンの推定として機能する仮説報酬マシンを維持している。
エージェントが環境を探索すると、アルゴリズムは得られた報奨と原子命題の真理値の推定に従って仮説報奨機を更新する。
最後に、このアルゴリズムは、仮説報酬機械の状態のq学習手順を使用して、そのタスクを達成するポリシーを決定する。
アルゴリズムが報奨機を推定し,漸近的に各タスクを遂行する方針を学習できることを実証する。
関連論文リスト
- Inductive Learning of Robot Task Knowledge from Raw Data and Online Expert Feedback [3.10979520014442]
ロボットの自律性の向上は、特に人間とロボットの相互作用シナリオにおいて、信頼と社会的受容の課題を引き起こす。
これはロボット認知能力の解釈可能な実装を必要としており、おそらくはタスク仕様の定義のための論理としての形式的手法に基づいている。
本稿では,タスク仕様を抽出するノイズの多い例から,帰納的論理プログラミングに基づくオフラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-13T17:25:46Z) - Anticipating Oblivious Opponents in Stochastic Games [7.9266383017424795]
我々は,我々のオートマトンによって追跡される信念状態が,完全な歴史の知識によって得られた正確な信念状態から一定の距離に留まることを保証する一貫性の概念を導入する。
本稿では、情報状態マシンが、プレイ上で定義された報酬関数を最大化するための最適ポリシーを計算するための出発点となるMDPを生成する方法を示す。
論文 参考訳(メタデータ) (2024-09-18T03:17:40Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。
ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。
単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文 参考訳(メタデータ) (2023-08-28T22:29:16Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Knowledge is reward: Learning optimal exploration by predictive reward
cashing [5.279475826661643]
ベイズ適応問題の本質的な数学的構造を利用して問題を劇的に単純化する。
この単純化の鍵は、クロスバリューという新しい概念から来ている。
これにより、現在の情報状態から予測できる全ての将来の報酬を"キャッシュイン"する、新しいより密度の高い報酬構造が得られる。
論文 参考訳(メタデータ) (2021-09-17T12:52:24Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。