論文の概要: Efficient Symbolic Policy Learning with Differentiable Symbolic
Expression
- arxiv url: http://arxiv.org/abs/2311.02104v1
- Date: Thu, 2 Nov 2023 03:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:38:01.533948
- Title: Efficient Symbolic Policy Learning with Differentiable Symbolic
Expression
- Title(参考訳): 識別可能な記号表現を用いた効率的な記号ポリシー学習
- Authors: Jiaming Guo, Rui Zhang, Shaohui Peng, Qi Yi, Xing Hu, Ruizhi Chen,
Zidong Du, Xishan Zhang, Ling Li, Qi Guo, Yunji Chen
- Abstract要約: 本稿では, ゼロから端から端まで, シンボリックポリシーを学習する学習手法を提案する。
また,シングルタスクRLでのみ動作する従来のシンボルポリシとは対照的に,メタRL上でESPLを拡張して,目に見えないタスクのシンボリックポリシを生成する。
- 参考スコア(独自算出の注目度): 30.855457609733637
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep reinforcement learning (DRL) has led to a wide range of advances in
sequential decision-making tasks. However, the complexity of neural network
policies makes it difficult to understand and deploy with limited computational
resources. Currently, employing compact symbolic expressions as symbolic
policies is a promising strategy to obtain simple and interpretable policies.
Previous symbolic policy methods usually involve complex training processes and
pre-trained neural network policies, which are inefficient and limit the
application of symbolic policies. In this paper, we propose an efficient
gradient-based learning method named Efficient Symbolic Policy Learning (ESPL)
that learns the symbolic policy from scratch in an end-to-end way. We introduce
a symbolic network as the search space and employ a path selector to find the
compact symbolic policy. By doing so we represent the policy with a
differentiable symbolic expression and train it in an off-policy manner which
further improves the efficiency. In addition, in contrast with previous
symbolic policies which only work in single-task RL because of complexity, we
expand ESPL on meta-RL to generate symbolic policies for unseen tasks.
Experimentally, we show that our approach generates symbolic policies with
higher performance and greatly improves data efficiency for single-task RL. In
meta-RL, we demonstrate that compared with neural network policies the proposed
symbolic policy achieves higher performance and efficiency and shows the
potential to be interpretable.
- Abstract(参考訳): 深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて幅広い進歩をもたらした。
しかしながら、ニューラルネットワークポリシの複雑さは、限られた計算リソースで理解し、デプロイすることが難しくなる。
現在、シンボリックポリシーとしてコンパクトな記号表現を採用することは、単純かつ解釈可能なポリシーを得るための有望な戦略である。
従来の象徴的ポリシー手法は、通常、複雑なトレーニングプロセスと事前訓練されたニューラルネットワークポリシーを含む。
そこで,本稿では,エンドツーエンドでシンボルポリシーをスクラッチから学習する,効率的な勾配ベース学習手法として,効率的なシンボリックポリシー学習(espl)を提案する。
探索空間としてシンボルネットワークを導入し、経路セレクタを用いてコンパクトなシンボルポリシーを求める。
そうすることで、我々は差別化可能な象徴表現でポリシーを表現し、非政治的な方法で訓練し、効率をさらに向上する。
また,シングルタスクRLのみで動作する従来のシンボルポリシとは対照的に,メタRL上でESPLを拡張して,目に見えないタスクのシンボルポリシを生成する。
実験により,本手法は高い性能でシンボルポリシーを生成し,シングルタスクRLのデータ効率を大幅に向上することを示した。
メタRLでは、ニューラルネットワークポリシと比較して、提案したシンボルポリシがより高い性能と効率を実現し、解釈可能な可能性を示す。
関連論文リスト
- SYMPOL: Symbolic Tree-Based On-Policy Reinforcement Learning [9.035959289139102]
本稿では,SYMbolic tree-based on-POLicy RLの新しい手法であるSYMPOLを紹介する。
SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用しており、エージェントはそのアクションを学習し、適応することができる。
我々は、SYMPOLを一連のベンチマークRLタスクで評価し、代替木ベースのRLアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T14:04:40Z) - End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations [15.530907808235945]
構造化状態と象徴的ポリシーを共同学習するための,ニューロシンボリックな枠組みを提案する。
我々は、GPT-4に学習ポリシーと意思決定に関するテキスト説明を生成するパイプラインを設計する。
我々は,9つのアタリ課題に対するアプローチの有効性を検証するとともに,政策と意思決定に関するGPTによる説明を行う。
論文 参考訳(メタデータ) (2024-03-19T05:21:20Z) - Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Symbolic Distillation for Learned TCP Congestion Control [70.27367981153299]
TCP渋滞制御は、深層強化学習(RL)アプローチで大きな成功を収めた。
ブラックボックスポリシーは解釈可能性と信頼性に欠けており、しばしば従来のTCPデータパスの外で運用する必要がある。
本稿では,まず深部RLエージェントを訓練し,次にNNポリシーをホワイトボックスの軽量なルールに蒸留する,両世界の長所を達成するための新しい2段階のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T00:58:16Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - Neuro-Symbolic Reinforcement Learning with First-Order Logic [63.003353499732434]
論理ニューラルネットワークと呼ばれる最近のニューラルシンボリック・フレームワークを用いたテキストベースゲームのための新しいRL手法を提案する。
実験の結果,提案手法を用いたRLトレーニングは,TextWorldベンチマークにおいて,他の最先端のニューロシンボリック手法よりもはるかに高速に収束することがわかった。
論文 参考訳(メタデータ) (2021-10-21T08:21:49Z) - Neurosymbolic Reinforcement Learning with Formally Verified Exploration [21.23874800091344]
本稿では,連続した状態と行動空間を確実に安全に探索するためのフレームワークであるRevelを紹介する。
確実に安全な深層RLの鍵となる課題は、学習ループ内のニューラルネットワークの繰り返し検証が計算不可能であることだ。
この課題は、近似勾配を持つ一般のニューロシンボリッククラスと、効率的な検証を可能にするシンボリックポリシーのより制限されたクラスという2つのポリシークラスを用いて解決する。
論文 参考訳(メタデータ) (2020-09-26T14:51:04Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。