論文の概要: Pittsburgh Learning Classifier Systems for Explainable Reinforcement
Learning: Comparing with XCS
- arxiv url: http://arxiv.org/abs/2305.09945v1
- Date: Wed, 17 May 2023 04:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:35:10.562466
- Title: Pittsburgh Learning Classifier Systems for Explainable Reinforcement
Learning: Comparing with XCS
- Title(参考訳): 説明可能な強化学習のためのピッツバーグ学習分類システム:XCSとの比較
- Authors: Jordan T. Bishop, Marcus Gallagher, Will N. Browne
- Abstract要約: ピッツバーグ・ラーニング・システム(英: Pittsburgh Learning Systems、LCS)は、eXplainable AI (XAI)として分類できる進化型機械学習システムである。
強化学習領域であるPPL-DLとPPL-STの2つの新しいLCSを開発した。
その結果, PPL-STはPPL-DLよりも高い性能を示し, 高レベルの環境不確実性の存在下ではXCSより優れていた。
- 参考スコア(独自算出の注目度): 4.357229064816079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interest in reinforcement learning (RL) has recently surged due to the
application of deep learning techniques, but these connectionist approaches are
opaque compared with symbolic systems. Learning Classifier Systems (LCSs) are
evolutionary machine learning systems that can be categorised as eXplainable AI
(XAI) due to their rule-based nature. Michigan LCSs are commonly used in RL
domains as the alternative Pittsburgh systems (e.g. SAMUEL) suffer from complex
algorithmic design and high computational requirements; however they can
produce more compact/interpretable solutions than Michigan systems. We aim to
develop two novel Pittsburgh LCSs to address RL domains: PPL-DL and PPL-ST. The
former acts as a "zeroth-level" system, and the latter revisits SAMUEL's core
Monte Carlo learning mechanism for estimating rule strength. We compare our two
Pittsburgh systems to the Michigan system XCS across deterministic and
stochastic FrozenLake environments. Results show that PPL-ST performs on-par or
better than PPL-DL and outperforms XCS in the presence of high levels of
environmental uncertainty. Rulesets evolved by PPL-ST can achieve higher
performance than those evolved by XCS, but in a more parsimonious and therefore
more interpretable fashion, albeit with higher computational cost. This
indicates that PPL-ST is an LCS well-suited to producing explainable policies
in RL domains.
- Abstract(参考訳): 近年、深層学習技術の適用により強化学習(RL)への関心が高まっているが、これらのコネクショナリストのアプローチは象徴的システムと比較して不透明である。
学習分類システム (Learning Classifier Systems, LCS) は、eXplainable AI (XAI) として分類できる進化型機械学習システムである。
ミシガンLSCは、ピッツバーグの代替システム(例えばSAMUEL)が複雑なアルゴリズム設計と高い計算要求に悩まされているため、RLドメインで一般的に使用されているが、ミシガンシステムよりもコンパクトで解釈可能なソリューションを作成できる。
PPL-DL と PPL-ST の2つの新しい LCS の開発を目指している。
前者は「ゼロレベル」システムとして機能し、後者はサミュエルのコアモンテカルロ学習機構を見直して規則の強さを推定する。
我々は2つのピッツバーグ・システムとミシガン・システムxcsを,決定論的および確率的凍結湖環境にまたがって比較した。
その結果, PPL-STはPPL-DLよりも高い性能を示し, 高レベルの環境不確実性の存在下ではXCSより優れていた。
PPL-STによって進化したルールセットは、XCSによって進化したルールよりも高いパフォーマンスを達成することができるが、それ故に計算コストが高いにもかかわらず、より同義的で解釈可能な方法で実現することができる。
このことは、PLP-STは、RLドメインで説明可能なポリシーを作成するのに適したLCSであることを示している。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand
Cores [11.311766565113922]
本稿では,多種多様なアプリケーションを対象とした実践的RLトレーニングを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的な分散RLシステムReaLly Scalable RL(SRL)を開発した。
SRLは、そのような大規模なRL実験を行った最初の学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - A Genetic Fuzzy System for Interpretable and Parsimonious Reinforcement
Learning Policies [4.357229064816079]
ピッツバーグ・ファジィ・システム(ファジィ・モココ)は、多目的および協調的共進化機構の両方を利用して、RL環境に対するファジィ規則に基づくポリシーを進化させることが提案されている。
その結果、システムは、ポリシーのパフォーマンスと複雑さのトレードオフを効果的に探求し、可能な限り少ないルールを使用する、解釈可能なハイパフォーマンスなポリシーを学ぶことができることを示した。
論文 参考訳(メタデータ) (2023-05-17T03:09:12Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Learning to Control Linear Systems can be Hard [19.034920102339573]
線形システムを制御するための学習の統計的困難さについて検討する。
我々は、学習の複雑さが制御可能性指数と最も指数関数的であることを証明した。
論文 参考訳(メタデータ) (2022-05-27T15:07:30Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement
Learning [4.9444321684311925]
本稿では,新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入する。
その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。
このメトリクスを迷路のような環境でよく使われるステップ・ツー・ゴールのメトリクスにリンクし、メトリクスが競合するよりも補完的であるかを説明します。
論文 参考訳(メタデータ) (2020-09-03T06:31:43Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - The Adversarial Resilience Learning Architecture for AI-based Modelling,
Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。
ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。
本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文 参考訳(メタデータ) (2020-05-27T19:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。