論文の概要: A Genetic Fuzzy System for Interpretable and Parsimonious Reinforcement
Learning Policies
- arxiv url: http://arxiv.org/abs/2305.09922v1
- Date: Wed, 17 May 2023 03:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:43:50.178638
- Title: A Genetic Fuzzy System for Interpretable and Parsimonious Reinforcement
Learning Policies
- Title(参考訳): 解釈・対処可能な強化学習方針のための遺伝的ファジィシステム
- Authors: Jordan T. Bishop, Marcus Gallagher, Will N. Browne
- Abstract要約: ピッツバーグ・ファジィ・システム(ファジィ・モココ)は、多目的および協調的共進化機構の両方を利用して、RL環境に対するファジィ規則に基づくポリシーを進化させることが提案されている。
その結果、システムは、ポリシーのパフォーマンスと複雑さのトレードオフを効果的に探求し、可能な限り少ないルールを使用する、解釈可能なハイパフォーマンスなポリシーを学ぶことができることを示した。
- 参考スコア(独自算出の注目度): 4.357229064816079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is experiencing a resurgence in research
interest, where Learning Classifier Systems (LCSs) have been applied for many
years. However, traditional Michigan approaches tend to evolve large rule bases
that are difficult to interpret or scale to domains beyond standard mazes. A
Pittsburgh Genetic Fuzzy System (dubbed Fuzzy MoCoCo) is proposed that utilises
both multiobjective and cooperative coevolutionary mechanisms to evolve fuzzy
rule-based policies for RL environments. Multiobjectivity in the system is
concerned with policy performance vs. complexity. The continuous state RL
environment Mountain Car is used as a testing bed for the proposed system.
Results show the system is able to effectively explore the trade-off between
policy performance and complexity, and learn interpretable, high-performing
policies that use as few rules as possible.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)は、長年にわたって学習分類システム(Learning Classifier Systems、LCS)が適用されてきた研究分野の復活である。
しかし、伝統的なミシガンのアプローチは、標準的な迷路を超えてドメインの解釈や拡張が難しい大きなルールベースを進化させる傾向がある。
ピッツバーグ・ジェネティック・ファジィ・システム(Fizzy MoCoCo)は、多目的・協調的共進化機構を利用して、RL環境におけるファジィ規則に基づくポリシーを進化させる。
システムの多目的性は、ポリシーのパフォーマンスと複雑さに関するものです。
連続状態RL環境であるマウンテンカーは,提案システムのテストベッドとして使用されている。
その結果、システムは、ポリシーのパフォーマンスと複雑さの間のトレードオフを効果的に探求し、可能な限りルールが少ない解釈可能でハイパフォーマンスなポリシーを学習できることが示されました。
関連論文リスト
- Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning [1.3678669691302048]
本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率論的モデリングと強化学習の利点と、解釈可能性の利点を兼ね備えている。
論文 参考訳(メタデータ) (2023-10-28T20:30:57Z) - Pittsburgh Learning Classifier Systems for Explainable Reinforcement
Learning: Comparing with XCS [4.357229064816079]
ピッツバーグ・ラーニング・システム(英: Pittsburgh Learning Systems、LCS)は、eXplainable AI (XAI)として分類できる進化型機械学習システムである。
強化学習領域であるPPL-DLとPPL-STの2つの新しいLCSを開発した。
その結果, PPL-STはPPL-DLよりも高い性能を示し, 高レベルの環境不確実性の存在下ではXCSより優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:46:55Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。