論文の概要: Neural Reward Machines
- arxiv url: http://arxiv.org/abs/2408.08677v1
- Date: Fri, 16 Aug 2024 11:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 15:45:34.980251
- Title: Neural Reward Machines
- Title(参考訳): ニューラルリワードマシン
- Authors: Elena Umili, Francesco Argenziano, Roberto Capobianco,
- Abstract要約: 非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。
ニューラル・リワード・マシン(NRM)は,非記号的RLドメインにおける推論と学習の両方に使用できる,オートマタベースのニューロシンボリック・フレームワークである。
我々は,NRMがSG関数の知識を使わずに,先行知識を組み込むことができないディープRL法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.0755366440393743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-markovian Reinforcement Learning (RL) tasks are very hard to solve, because agents must consider the entire history of state-action pairs to act rationally in the environment. Most works use symbolic formalisms (as Linear Temporal Logic or automata) to specify the temporally-extended task. These approaches only work in finite and discrete state environments or continuous problems for which a mapping between the raw state and a symbolic interpretation is known as a symbol grounding (SG) function. Here, we define Neural Reward Machines (NRM), an automata-based neurosymbolic framework that can be used for both reasoning and learning in non-symbolic non-markovian RL domains, which is based on the probabilistic relaxation of Moore Machines. We combine RL with semisupervised symbol grounding (SSSG) and we show that NRMs can exploit high-level symbolic knowledge in non-symbolic environments without any knowledge of the SG function, outperforming Deep RL methods which cannot incorporate prior knowledge. Moreover, we advance the research in SSSG, proposing an algorithm for analysing the groundability of temporal specifications, which is more efficient than baseline techniques of a factor $10^3$.
- Abstract(参考訳): 非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。
ほとんどの作品では、時間的に拡張されたタスクを指定するために記号形式(線形時間論理(英語版)やオートマトン(英語版)など)を用いる。
これらのアプローチは、原状態と記号解釈の間の写像が記号基底関数(SG)と呼ばれる有限かつ離散的な状態環境や連続的な問題でのみ機能する。
本稿では、ムーアマシンの確率的緩和に基づく非象徴的RLドメインの推論と学習に使用できるオートマタベースのニューロシンボリックフレームワークであるNeural Reward Machines(NRM)を定義する。
我々は,RLと半教師付き記号接地(SSSG)を組み合わせることで,NRMがSG関数の知識を必要とせず,事前知識を組み込むことができないDeep RL法より優れていることを示す。
さらに,SSSGの研究を前進させ,時間的仕様の基盤性を解析するアルゴリズムを提案し,これは10^3$の基準手法よりも効率的である。
関連論文リスト
- BlendRL: A Framework for Merging Symbolic and Neural Policy Learning [23.854830898003726]
BlendRLは、論理とニューラルポリシーの混合を使用するRLエージェントに両方のパラダイムを統合する、ニューラルシンボリックなRLフレームワークである。
我々は,BlendRLエージェントが標準アタリ環境において,ニューラルベースラインとシンボリックベースラインの両方より優れていることを実証的に実証した。
ニューラルポリシーとシンボリックポリシーの相互作用を分析し、それらのハイブリッド利用がエージェントの制限を克服するのにどのように役立つかを説明する。
論文 参考訳(メタデータ) (2024-10-15T15:24:20Z) - Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事
従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。
大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文 参考訳(メタデータ) (2024-07-11T14:00:53Z) - IID Relaxation by Logical Expressivity: A Research Agenda for Fitting Logics to Neurosymbolic Requirements [50.57072342894621]
本稿では、ニューロシンボリック・ユースケースにおける既知のデータ依存と分布制約を利用する利点について論じる。
これは、ニューロシンボリックな背景知識と、その論理に必要とされる表現性に関する一般的な疑問を伴う新しい研究課題を開く。
論文 参考訳(メタデータ) (2024-04-30T12:09:53Z) - The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。
新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2024-02-02T20:33:14Z) - Reinforcement Learning with Temporal-Logic-Based Causal Diagrams [25.538860320318943]
エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。
これらの機械は報酬関数をモデル化するが、環境に関する因果的知識を見落としてしまうことが多い。
環境の異なる特性間の時間的因果関係をキャプチャする,時間論理に基づく因果関係図(TL-CD)をRLで提案する。
論文 参考訳(メタデータ) (2023-06-23T18:42:27Z) - Noisy Symbolic Abstractions for Deep RL: A case study with Reward
Machines [23.15484341058261]
報酬関数がReward Machinesによってキャプチャされたシンボル言語で指定された場合、RLを介してポリシーを生成する方法について検討する。
雑音の象徴的な抽象概念を用いて、リワードマシンにおけるポリシー学習の問題を定式化する。
論文 参考訳(メタデータ) (2022-11-20T08:13:48Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Automated Machine Learning, Bounded Rationality, and Rational
Metareasoning [62.997667081978825]
有界合理性の観点から、自動機械学習(AutoML)と関連する問題を考察する。
リソース境界の下でアクションを取るには、エージェントがこれらのリソースを最適な方法で利用する方法を反映する必要がある。
論文 参考訳(メタデータ) (2021-09-10T09:10:20Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。