Fugu-MT 論文翻訳(概要): Neural Reward Machines

論文の概要: Neural Reward Machines

arxiv url: http://arxiv.org/abs/2408.08677v1
Date: Fri, 16 Aug 2024 11:44:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-19 15:45:34.980251
Title: Neural Reward Machines
Title（参考訳）: ニューラルリワードマシン
Authors: Elena Umili, Francesco Argenziano, Roberto Capobianco,
Abstract要約: 非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。ニューラル・リワード・マシン(NRM)は,非記号的RLドメインにおける推論と学習の両方に使用できる,オートマタベースのニューロシンボリック・フレームワークである。我々は,NRMがSG関数の知識を使わずに,先行知識を組み込むことができないディープRL法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 2.0755366440393743
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Non-markovian Reinforcement Learning (RL) tasks are very hard to solve, because agents must consider the entire history of state-action pairs to act rationally in the environment. Most works use symbolic formalisms (as Linear Temporal Logic or automata) to specify the temporally-extended task. These approaches only work in finite and discrete state environments or continuous problems for which a mapping between the raw state and a symbolic interpretation is known as a symbol grounding (SG) function. Here, we define Neural Reward Machines (NRM), an automata-based neurosymbolic framework that can be used for both reasoning and learning in non-symbolic non-markovian RL domains, which is based on the probabilistic relaxation of Moore Machines. We combine RL with semisupervised symbol grounding (SSSG) and we show that NRMs can exploit high-level symbolic knowledge in non-symbolic environments without any knowledge of the SG function, outperforming Deep RL methods which cannot incorporate prior knowledge. Moreover, we advance the research in SSSG, proposing an algorithm for analysing the groundability of temporal specifications, which is more efficient than baseline techniques of a factor $10^3$.
Abstract（参考訳）: 非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。ほとんどの作品では、時間的に拡張されたタスクを指定するために記号形式(線形時間論理(英語版)やオートマトン(英語版)など)を用いる。これらのアプローチは、原状態と記号解釈の間の写像が記号基底関数(SG)と呼ばれる有限かつ離散的な状態環境や連続的な問題でのみ機能する。本稿では、ムーアマシンの確率的緩和に基づく非象徴的RLドメインの推論と学習に使用できるオートマタベースのニューロシンボリックフレームワークであるNeural Reward Machines(NRM)を定義する。我々は,RLと半教師付き記号接地(SSSG)を組み合わせることで,NRMがSG関数の知識を必要とせず,事前知識を組み込むことができないDeep RL法より優れていることを示す。さらに,SSSGの研究を前進させ,時間的仕様の基盤性を解析するアルゴリズムを提案し,これは10^3$の基準手法よりも効率的である。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Compositional Generalization Across Distributional Shifts with Sparse Tree Operations [77.5742801509364]
我々は、微分可能木機械と呼ばれる統合されたニューロシンボリックアーキテクチャを導入する。シンボル構造の疎ベクトル表現を用いることで,モデルの効率を大幅に向上する。より一般的なseq2seq問題に制限されたtree2tree問題以外の適用を可能にする。
論文参考訳（メタデータ） (2024-12-18T17:20:19Z)
NeSyA: Neurosymbolic Automata [8.461323070662774]
ニューロシンボリック(NeSy)AIは、ニューラルおよびシンボリック推論を統合するための有望な方向として登場した。シンボリックオートマトンはニューラルベース認識と統合可能であることを示す。提案するハイブリッドモデルであるNeSyA(Neuro Automata)は,従来のNeSyシステムよりもスケールあるいは精度の高い性能を示す。
論文参考訳（メタデータ） (2024-12-10T09:23:36Z)
BlendRL: A Framework for Merging Symbolic and Neural Policy Learning [23.854830898003726]
BlendRLは、論理とニューラルポリシーの混合を使用するRLエージェントに両方のパラダイムを統合する、ニューラルシンボリックなRLフレームワークである。我々は,BlendRLエージェントが標準アタリ環境において,ニューラルベースラインとシンボリックベースラインの両方より優れていることを実証的に実証した。ニューラルポリシーとシンボリックポリシーの相互作用を分析し、それらのハイブリッド利用がエージェントの制限を克服するのにどのように役立つかを説明する。
論文参考訳（メタデータ） (2024-10-15T15:24:20Z)
Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文参考訳（メタデータ） (2024-07-11T14:00:53Z)
IID Relaxation by Logical Expressivity: A Research Agenda for Fitting Logics to Neurosymbolic Requirements [50.57072342894621]
本稿では、ニューロシンボリック・ユースケースにおける既知のデータ依存と分布制約を利用する利点について論じる。これは、ニューロシンボリックな背景知識と、その論理に必要とされる表現性に関する一般的な疑問を伴う新しい研究課題を開く。
論文参考訳（メタデータ） (2024-04-30T12:09:53Z)
The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文参考訳（メタデータ） (2024-02-02T20:33:14Z)
Reinforcement Learning with Temporal-Logic-Based Causal Diagrams [25.538860320318943]
エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。これらの機械は報酬関数をモデル化するが、環境に関する因果的知識を見落としてしまうことが多い。環境の異なる特性間の時間的因果関係をキャプチャする,時間論理に基づく因果関係図(TL-CD)をRLで提案する。
論文参考訳（メタデータ） (2023-06-23T18:42:27Z)
Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines [23.15484341058261]
報酬関数がReward Machinesによってキャプチャされたシンボル言語で指定された場合、RLを介してポリシーを生成する方法について検討する。雑音の象徴的な抽象概念を用いて、リワードマシンにおけるポリシー学習の問題を定式化する。
論文参考訳（メタデータ） (2022-11-20T08:13:48Z)
Exploration Policies for On-the-Fly Controller Synthesis: A Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文参考訳（メタデータ） (2022-10-07T20:28:25Z)
Automated Machine Learning, Bounded Rationality, and Rational Metareasoning [62.997667081978825]
有界合理性の観点から、自動機械学習(AutoML)と関連する問題を考察する。リソース境界の下でアクションを取るには、エージェントがこれらのリソースを最適な方法で利用する方法を反映する必要がある。
論文参考訳（メタデータ） (2021-09-10T09:10:20Z)
Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。主アルゴリズムの正確性と収束性を保証する。
論文参考訳（メタデータ） (2021-02-01T01:13:03Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。