Fugu-MT 論文翻訳(概要): Pittsburgh Learning Classifier Systems for Explainable Reinforcement Learning: Comparing with XCS

論文の概要: Pittsburgh Learning Classifier Systems for Explainable Reinforcement Learning: Comparing with XCS

arxiv url: http://arxiv.org/abs/2305.09945v1
Date: Wed, 17 May 2023 04:46:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 17:35:10.562466
Title: Pittsburgh Learning Classifier Systems for Explainable Reinforcement Learning: Comparing with XCS
Title（参考訳）: 説明可能な強化学習のためのピッツバーグ学習分類システム:XCSとの比較
Authors: Jordan T. Bishop, Marcus Gallagher, Will N. Browne
Abstract要約: ピッツバーグ・ラーニング・システム(英: Pittsburgh Learning Systems、LCS)は、eXplainable AI (XAI)として分類できる進化型機械学習システムである。強化学習領域であるPPL-DLとPPL-STの2つの新しいLCSを開発した。その結果, PPL-STはPPL-DLよりも高い性能を示し, 高レベルの環境不確実性の存在下ではXCSより優れていた。
参考スコア（独自算出の注目度）: 4.357229064816079
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interest in reinforcement learning (RL) has recently surged due to the application of deep learning techniques, but these connectionist approaches are opaque compared with symbolic systems. Learning Classifier Systems (LCSs) are evolutionary machine learning systems that can be categorised as eXplainable AI (XAI) due to their rule-based nature. Michigan LCSs are commonly used in RL domains as the alternative Pittsburgh systems (e.g. SAMUEL) suffer from complex algorithmic design and high computational requirements; however they can produce more compact/interpretable solutions than Michigan systems. We aim to develop two novel Pittsburgh LCSs to address RL domains: PPL-DL and PPL-ST. The former acts as a "zeroth-level" system, and the latter revisits SAMUEL's core Monte Carlo learning mechanism for estimating rule strength. We compare our two Pittsburgh systems to the Michigan system XCS across deterministic and stochastic FrozenLake environments. Results show that PPL-ST performs on-par or better than PPL-DL and outperforms XCS in the presence of high levels of environmental uncertainty. Rulesets evolved by PPL-ST can achieve higher performance than those evolved by XCS, but in a more parsimonious and therefore more interpretable fashion, albeit with higher computational cost. This indicates that PPL-ST is an LCS well-suited to producing explainable policies in RL domains.
Abstract（参考訳）: 近年、深層学習技術の適用により強化学習(RL)への関心が高まっているが、これらのコネクショナリストのアプローチは象徴的システムと比較して不透明である。学習分類システム (Learning Classifier Systems, LCS) は、eXplainable AI (XAI) として分類できる進化型機械学習システムである。ミシガンLSCは、ピッツバーグの代替システム(例えばSAMUEL)が複雑なアルゴリズム設計と高い計算要求に悩まされているため、RLドメインで一般的に使用されているが、ミシガンシステムよりもコンパクトで解釈可能なソリューションを作成できる。 PPL-DL と PPL-ST の2つの新しい LCS の開発を目指している。前者は「ゼロレベル」システムとして機能し、後者はサミュエルのコアモンテカルロ学習機構を見直して規則の強さを推定する。我々は2つのピッツバーグ・システムとミシガン・システムxcsを,決定論的および確率的凍結湖環境にまたがって比較した。その結果, PPL-STはPPL-DLよりも高い性能を示し, 高レベルの環境不確実性の存在下ではXCSより優れていた。 PPL-STによって進化したルールセットは、XCSによって進化したルールよりも高いパフォーマンスを達成することができるが、それ故に計算コストが高いにもかかわらず、より同義的で解釈可能な方法で実現することができる。このことは、PLP-STは、RLドメインで説明可能なポリシーを作成するのに適したLCSであることを示している。

関連論文リスト

Self-Evolving Curriculum for LLM Reasoning [108.23021254812258]
自己進化カリキュラム(Self-Evolving Curriculum, SEC)は、RLファインチューニングプロセスと並行してカリキュラムポリシーを学習する自動カリキュラム学習手法である。実験により、SECはモデルの推論能力を大幅に改善し、より困難で配布外のテスト問題へのより良い一般化を可能にした。
論文参考訳（メタデータ） (2025-05-20T23:17:15Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文参考訳（メタデータ） (2024-09-04T14:26:58Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
A Genetic Fuzzy System for Interpretable and Parsimonious Reinforcement Learning Policies [4.357229064816079]
ピッツバーグ・ファジィ・システム(ファジィ・モココ)は、多目的および協調的共進化機構の両方を利用して、RL環境に対するファジィ規則に基づくポリシーを進化させることが提案されている。その結果、システムは、ポリシーのパフォーマンスと複雑さのトレードオフを効果的に探求し、可能な限り少ないルールを使用する、解釈可能なハイパフォーマンスなポリシーを学ぶことができることを示した。
論文参考訳（メタデータ） (2023-05-17T03:09:12Z)
LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文参考訳（メタデータ） (2022-09-21T13:21:00Z)
PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-07-12T17:57:17Z)
Learning to Control Linear Systems can be Hard [19.034920102339573]
線形システムを制御するための学習の統計的困難さについて検討する。我々は、学習の複雑さが制御可能性指数と最も指数関数的であることを証明した。
論文参考訳（メタデータ） (2022-05-27T15:07:30Z)
Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement Learning [4.9444321684311925]
本稿では,新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入する。その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。このメトリクスを迷路のような環境でよく使われるステップ・ツー・ゴールのメトリクスにリンクし、メトリクスが競合するよりも補完的であるかを説明します。
論文参考訳（メタデータ） (2020-09-03T06:31:43Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
The Adversarial Resilience Learning Architecture for AI-based Modelling, Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。 ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文参考訳（メタデータ） (2020-05-27T19:19:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。