論文の概要: Fully Learnable Neural Reward Machines
- arxiv url: http://arxiv.org/abs/2509.19017v1
- Date: Tue, 23 Sep 2025 13:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.87103
- Title: Fully Learnable Neural Reward Machines
- Title(参考訳): 完全学習型ニューラルリワードマシン
- Authors: Hazem Dewidar, Elena Umili,
- Abstract要約: 本稿では,Symbol Grounding関数とエンドツーエンドの両方を学習可能な,完全に学習可能なNeural Reward Machines(NRM)を提案する。
我々のアプローチは古典的な深いRL(DRL)アプローチと同じくらい簡単に適用できるが、より説明しやすい。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-Markovian Reinforcement Learning (RL) tasks present significant challenges, as agents must reason over entire trajectories of state-action pairs to make optimal decisions. A common strategy to address this is through symbolic formalisms, such as Linear Temporal Logic (LTL) or automata, which provide a structured way to express temporally extended objectives. However, these approaches often rely on restrictive assumptions -- such as the availability of a predefined Symbol Grounding (SG) function mapping raw observations to high-level symbolic representations, or prior knowledge of the temporal task. In this work, we propose a fully learnable version of Neural Reward Machines (NRM), which can learn both the SG function and the automaton end-to-end, removing any reliance on prior knowledge. Our approach is therefore as easily applicable as classic deep RL (DRL) approaches, while being far more explainable, because of the finite and compact nature of automata. Furthermore, we show that by integrating Fully Learnable Reward Machines (FLNRM) with DRL, our method outperforms previous approaches based on Recurrent Neural Networks (RNNs).
- Abstract(参考訳): 非マルコフ強化学習(RL)タスクは、エージェントが最適な決定を行うためには、状態-作用ペア全体の軌跡を推論する必要があるため、重大な課題を呈する。
この問題に対処するための一般的な戦略は、線形時間論理(LTL)やオートマトン(automatica)といった象徴的な形式主義を通じて、時間的に拡張された目的を表現する構造的方法を提供する。
しかしながら、これらのアプローチは、しばしば制限的な仮定に依存し、例えば事前定義されたシンボルグラウンドリング(SG)関数が、生の観測を高レベルな記号表現にマッピングしたり、時間的タスクの事前の知識にマッピングするなどである。
本研究では、SG関数とオートマトンエンドツーエンドの両方を学習し、事前の知識に依存しない、完全に学習可能なニューラルリワードマシン(NRM)を提案する。
したがって、我々のアプローチは古典的深度RL(DRL)アプローチと同じくらい容易に適用できるが、オートマチックの有限かつコンパクトな性質のため、はるかに説明可能である。
さらに、FLNRM(Fully Learnable Reward Machines)とDRLを統合することにより、リカレントニューラルネットワーク(RNN)に基づく従来の手法よりも優れていることを示す。
関連論文リスト
- Neural Reward Machines [2.0755366440393743]
非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。
ニューラル・リワード・マシン(NRM)は,非記号的RLドメインにおける推論と学習の両方に使用できる,オートマタベースのニューロシンボリック・フレームワークである。
我々は,NRMがSG関数の知識を使わずに,先行知識を組み込むことができないディープRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:44:27Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Recurrent Neural Networks for Learning Long-term Temporal Dependencies
with Reanalysis of Time Scale Representation [16.32068729107421]
時間的表現としての忘れ門の解釈は、状態に対する損失の勾配が時間とともに指数関数的に減少するときに有効であると主張する。
本稿では,従来のモデルよりも長い時間スケールを表現できる新しいRNNの構築手法を提案する。
論文 参考訳(メタデータ) (2021-11-05T06:22:58Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Contextual Classification Using Self-Supervised Auxiliary Models for
Deep Neural Networks [6.585049648605185]
自己監督型自動学習(SSAL)モデルの概念を紹介します。
SSALの目的は、元の教師付き分類タスクから派生した1つ以上の追加目標によって実現される。
SSALモデルは、より解釈しやすい構造化された予測を提供しながら、常に最先端を上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:41:16Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。