論文の概要: Learning Reward Machines: A Study in Partially Observable Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.09477v1
- Date: Fri, 17 Dec 2021 12:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 14:04:26.688365
- Title: Learning Reward Machines: A Study in Partially Observable Reinforcement
Learning
- Title(参考訳): 学習報酬機械:部分的に観察可能な強化学習の研究
- Authors: Rodrigo Toro Icarte, Ethan Waldie, Toryn Q. Klassen, Richard
Valenzano, Margarita P. Castro, Sheila A. McIlraith
- Abstract要約: リワードマシン(RM)は、報酬関数の構造化された自動表現を提供する。
ユーザによって指定されるのではなく、経験からRMを学ぶことができることを示す。
3つの部分観測可能な領域に対して,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 19.483669435200415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a central problem in artificial intelligence.
This problem consists of defining artificial agents that can learn optimal
behaviour by interacting with an environment -- where the optimal behaviour is
defined with respect to a reward signal that the agent seeks to maximize.
Reward machines (RMs) provide a structured, automata-based representation of a
reward function that enables an RL agent to decompose an RL problem into
structured subproblems that can be efficiently learned via off-policy learning.
Here we show that RMs can be learned from experience, instead of being
specified by the user, and that the resulting problem decomposition can be used
to effectively solve partially observable RL problems. We pose the task of
learning RMs as a discrete optimization problem where the objective is to find
an RM that decomposes the problem into a set of subproblems such that the
combination of their optimal memoryless policies is an optimal policy for the
original problem. We show the effectiveness of this approach on three partially
observable domains, where it significantly outperforms A3C, PPO, and ACER, and
discuss its advantages, limitations, and broader potential.
- Abstract(参考訳): 強化学習(RL)は人工知能の中心的な問題である。
この問題は、エージェントが最大化しようとする報酬信号に関して最適な行動を定義する環境と相互作用することで最適な行動を学ぶことができる人工エージェントを定義することで成り立っている。
リワードマシン(RM)は、RLエージェントがRL問題を構造化サブプロブレムに分解し、非政治的な学習を通じて効率的に学習できる報酬関数の構造化された自動表現を提供する。
ここでは、ユーザによって指定されるのではなく、経験からRMを学習できることを示し、その結果の問題を分解することで、部分的に観測可能なRL問題を効果的に解決できることを示す。
我々は,RMを離散最適化問題として学習するタスクを,その目的は,問題を一連のサブプロブレムに分解するRMを見つけることであり,それらの最適メモリレスポリシの組み合わせが元の問題にとって最適なポリシーであることを示す。
我々は,3つの部分可観測領域において,a3c,ppo,acerを著しく上回るこの手法の有効性を示し,その利点,限界,より広い可能性について論じる。
関連論文リスト
- Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Reinforcement Learning with Algorithms from Probabilistic Structure
Estimation [9.37335587960084]
強化学習アルゴリズムは未知の環境で最適な決定を学習することを目的としている。
エージェントのアクションが環境に影響を及ぼすかどうかは、当初から不明である。
どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。
論文 参考訳(メタデータ) (2021-03-15T09:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。