論文の概要: Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2009.01476v1
- Date: Thu, 3 Sep 2020 06:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 06:58:12.099514
- Title: Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement
Learning
- Title(参考訳): 離散強化学習におけるXCSF圧縮の最適性に基づく解析
- Authors: Jordan T. Bishop, Marcus Gallagher
- Abstract要約: 本稿では,新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入する。
その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。
このメトリクスを迷路のような環境でよく使われるステップ・ツー・ゴールのメトリクスにリンクし、メトリクスが競合するよりも補完的であるかを説明します。
- 参考スコア(独自算出の注目度): 4.9444321684311925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning classifier systems (LCSs) are population-based predictive systems
that were originally envisioned as agents to act in reinforcement learning (RL)
environments. These systems can suffer from population bloat and so are
amenable to compaction techniques that try to strike a balance between
population size and performance. A well-studied LCS architecture is XCSF, which
in the RL setting acts as a Q-function approximator. We apply XCSF to a
deterministic and stochastic variant of the FrozenLake8x8 environment from
OpenAI Gym, with its performance compared in terms of function approximation
error and policy accuracy to the optimal Q-functions and policies produced by
solving the environments via dynamic programming. We then introduce a novel
compaction algorithm (Greedy Niche Mass Compaction - GNMC) and study its
operation on XCSF's trained populations. Results show that given a suitable
parametrisation, GNMC preserves or even slightly improves function
approximation error while yielding a significant reduction in population size.
Reasonable preservation of policy accuracy also occurs, and we link this metric
to the commonly used steps-to-goal metric in maze-like environments,
illustrating how the metrics are complementary rather than competitive.
- Abstract(参考訳): 学習分類器システム(Learning Classifier System、LCS)は、もともとは強化学習(RL)環境で行動するエージェントとして想定されていた人口ベースの予測システムである。
これらのシステムは人口増加に悩まされるため、人口規模と性能のバランスを保とうとするコンパクト化技術に順応できる。
良く研究されたLCSアーキテクチャはXCSFであり、RL設定ではQ関数近似器として機能する。
我々は,XCSFをOpenAI GymのFrozenLake8x8環境の決定論的・確率的変種に適用し,その性能を関数近似誤差とポリシー精度の点で比較し,動的プログラミングによって環境を解決した最適Q関数とポリシーと比較した。
次に、新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入し、XCSFの訓練された人口に対する運用について検討する。
その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。
また,この指標を迷路のような環境においてよく用いられるステップ・ツー・ゴールの指標とリンクし,その指標が競合ではなく相補的であることを示す。
関連論文リスト
- Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。
我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。
理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2024-11-14T11:16:32Z) - Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - A Deep Recurrent-Reinforcement Learning Method for Intelligent AutoScaling of Serverless Functions [18.36339203254509]
Fは軽量で関数ベースのクラウド実行モデルを導入し、IoTエッジデータ処理や異常検出など、さまざまなアプリケーションでその妥当性を見出す。
論文 参考訳(メタデータ) (2023-08-11T04:41:19Z) - Learning Efficient Coding of Natural Images with Maximum Manifold
Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。
エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。
ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文 参考訳(メタデータ) (2023-03-06T17:26:30Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Local Function Complexity for Active Learning via Mixture of Gaussian
Processes [5.382740428160009]
実世界のデータにおける不均一性は、観測ノイズレベルの変化や源関数の構造的複雑さの変化により、統計的推測に固有の課題が生じる。
本稿では,局所関数複雑性(LFC)の推定に関する最近の理論的結果について述べる。
我々は、LPSベースのLFCのガウスプロセス回帰(GPR)に基づくアナログを導出、推定し、上記のフレームワークの代用として使用し、堅牢でスケーラブルにする。
論文 参考訳(メタデータ) (2019-02-27T17:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。