論文の概要: S-REINFORCE: A Neuro-Symbolic Policy Gradient Approach for Interpretable
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.07367v1
- Date: Fri, 12 May 2023 10:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:30:33.632809
- Title: S-REINFORCE: A Neuro-Symbolic Policy Gradient Approach for Interpretable
Reinforcement Learning
- Title(参考訳): S-ReINFORCE: 解釈型強化学習のための神経・シンボリック政策勾配アプローチ
- Authors: Rajdeep Dutta, Qincheng Wang, Ankur Singh, Dhruv Kumarjiguda, Li
Xiaoli, Senthilnath Jayavelu
- Abstract要約: 新しいRLアルゴリズムであるS-REINFORCEは、動的意思決定タスクの解釈可能なポリシーを生成するように設計されている。
S-REINFORCE は NN と SR の長所を生かして,優れた性能を持つだけでなく,解釈が容易なポリシを生成する。
- 参考スコア(独自算出の注目度): 0.660601600774899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel RL algorithm, S-REINFORCE, which is designed to
generate interpretable policies for dynamic decision-making tasks. The proposed
algorithm leverages two types of function approximators, namely Neural Network
(NN) and Symbolic Regressor (SR), to produce numerical and symbolic policies,
respectively. The NN component learns to generate a numerical probability
distribution over the possible actions using a policy gradient, while the SR
component captures the functional form that relates the associated states with
the action probabilities. The SR-generated policy expressions are then utilized
through importance sampling to improve the rewards received during the learning
process. We have tested the proposed S-REINFORCE algorithm on various dynamic
decision-making problems with low and high dimensional action spaces, and the
results demonstrate its effectiveness and impact in achieving interpretable
solutions. By leveraging the strengths of both NN and SR, S-REINFORCE produces
policies that are not only well-performing but also easy to interpret, making
it an ideal choice for real-world applications where transparency and causality
are crucial.
- Abstract(参考訳): 本稿では,動的意思決定タスクの解釈可能なポリシを生成するための新しいRLアルゴリズムであるS-REINFORCEを提案する。
提案アルゴリズムは,ニューラルネットワーク (NN) とシンボル回帰器 (SR) の2種類の関数近似器を用いて,それぞれ数値とシンボルのポリシーを生成する。
NNコンポーネントは、ポリシー勾配を用いて可能な動作に関する数値確率分布を生成することを学習し、SRコンポーネントは、関連する状態とアクション確率を関連付ける機能形式をキャプチャする。
SR生成ポリシー表現は、重要サンプリングを通じて利用され、学習プロセス中に得られる報酬を改善する。
我々は,S-REINFORCEアルゴリズムを低次元および高次元の動作空間における様々な動的決定問題に対して検証し,その解の有効性と効果を実証した。
S-REINFORCE は NN と SR の長所を活用することで,優れた性能を持つだけでなく解釈も容易なポリシを生成し,透明性と因果性が不可欠である実世界のアプリケーションにとって理想的な選択肢である。
関連論文リスト
- Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and
Probabilistic Decision Making [42.503612515214044]
マルチエージェント強化学習(MARL)は、複数のエージェントが共存し、共有リソースと競合するシステムにおいて、実行時の意思決定に適している。
ディープラーニングベースの一般的なMARLソリューションを実世界の問題に適用することは、解釈可能性、サンプル効率、部分観測可能性などの問題に悩まされる。
本稿では,ニューロシンボリック手法を用いて,意思決定を分散協調的MARLエージェントで処理するイベント駆動型定式化を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:16:08Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Context Meta-Reinforcement Learning via Neuromodulation [6.142272540492935]
メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは動的環境の少数のサンプルからタスクに迅速に適応できる。
本稿では、神経活動を制御する標準ポリシーネットワークを強化するためのモジュラーコンポーネントとして神経変調を導入する。
論文 参考訳(メタデータ) (2021-10-30T01:05:40Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Verifiable RNN-Based Policies for POMDPs Under Temporal Logic
Constraints [31.829932777445894]
RNNベースのポリシーの適用の大きな欠点は、行動仕様の満足度に関する正式な保証を提供することの難しさである。
形式的手法と機械学習の技法を統合することにより,RNNから有限状態制御器を自動的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T16:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。