論文の概要: Pushdown Reward Machines for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.06894v1
- Date: Sat, 09 Aug 2025 08:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.602504
- Title: Pushdown Reward Machines for Reinforcement Learning
- Title(参考訳): 強化学習のためのプッシュダウンリワードマシン
- Authors: Giovanni Varricchione, Toryn Q. Klassen, Natasha Alechina, Mehdi Dastani, Brian Logan, Sheila A. McIlraith,
- Abstract要約: 我々は、決定論的プッシュダウンオートマトンに基づく報酬機の拡張であるプッシュダウン報酬機(pdRMs)を提案する。
pdRMは、決定論的文脈自由言語で表現可能な時間的に拡張された振る舞いを認識し、報酬を与えることができる。
pdRMを用いて、決定論的文脈自由言語でタスクを表現可能なようにエージェントを訓練する方法を示す。
- 参考スコア(独自算出の注目度): 17.63980224819404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward machines (RMs) are automata structures that encode (non-Markovian) reward functions for reinforcement learning (RL). RMs can reward any behaviour representable in regular languages and, when paired with RL algorithms that exploit RM structure, have been shown to significantly improve sample efficiency in many domains. In this work, we present pushdown reward machines (pdRMs), an extension of reward machines based on deterministic pushdown automata. pdRMs can recognize and reward temporally extended behaviours representable in deterministic context-free languages, making them more expressive than reward machines. We introduce two variants of pdRM-based policies, one which has access to the entire stack of the pdRM, and one which can only access the top $k$ symbols (for a given constant $k$) of the stack. We propose a procedure to check when the two kinds of policies (for a given environment, pdRM, and constant $k$) achieve the same optimal expected reward. We then provide theoretical results establishing the expressive power of pdRMs, and space complexity results about the proposed learning problems. Finally, we provide experimental results showing how agents can be trained to perform tasks representable in deterministic context-free languages using pdRMs.
- Abstract(参考訳): Reward Machine(RM)は、強化学習(RL)のための(非マルコフ的)報酬関数を符号化する自動構造である。
RMは正規言語で表現可能な振舞いに報いることができ、RM構造を利用するRLアルゴリズムと組み合わせると、多くの領域でサンプル効率を大幅に改善することが示されている。
本稿では,決定論的プッシュダウンオートマトンに基づく報酬機の拡張であるプッシュダウン報酬機(pdRMs)を提案する。
pdRMは、決定論的文脈自由言語で表現可能な時間的に拡張された振る舞いを認識し、報酬を与えることができ、報酬マシンよりも表現力が高い。
pdRM ベースのポリシーには,pdRM のスタック全体にアクセスする方法と,スタックのトップ $k$ シンボル (所定の定数 $k$ に対して) にのみアクセス可能な方法の2種類を導入する。
そこで本稿では,2種類のポリシー(pdRM,定数$k$)が同じ最適報酬を達成できるかどうかを確認する手順を提案する。
次に, pdRMの表現力を確立する理論的結果と, 提案した学習問題に関する空間的複雑さについて述べる。
最後に, pdRMを用いた決定論的文脈自由言語において, エージェントがタスクを表現可能なように訓練できることを示す実験結果を示す。
関連論文リスト
- Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - FORM: Learning Expressive and Transferable First-Order Logic Reward Machines [48.36822060760614]
Reward Machine(RM)は、強化学習における非マルコフ報酬に対処するための効果的なアプローチである。
本稿では,エッジのラベル付けに一階述語論理を用いる一階述語機械(texttFORM$s)を提案する。
我々は、従来のRM学習アプローチが失敗するタスクに対して、$texttFORM$sを効果的に学習できることを示します。
論文 参考訳(メタデータ) (2024-12-31T09:31:15Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。