論文の概要: Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2009.01476v1
- Date: Thu, 3 Sep 2020 06:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 06:58:12.099514
- Title: Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement
Learning
- Title(参考訳): 離散強化学習におけるXCSF圧縮の最適性に基づく解析
- Authors: Jordan T. Bishop, Marcus Gallagher
- Abstract要約: 本稿では,新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入する。
その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。
このメトリクスを迷路のような環境でよく使われるステップ・ツー・ゴールのメトリクスにリンクし、メトリクスが競合するよりも補完的であるかを説明します。
- 参考スコア(独自算出の注目度): 4.9444321684311925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning classifier systems (LCSs) are population-based predictive systems
that were originally envisioned as agents to act in reinforcement learning (RL)
environments. These systems can suffer from population bloat and so are
amenable to compaction techniques that try to strike a balance between
population size and performance. A well-studied LCS architecture is XCSF, which
in the RL setting acts as a Q-function approximator. We apply XCSF to a
deterministic and stochastic variant of the FrozenLake8x8 environment from
OpenAI Gym, with its performance compared in terms of function approximation
error and policy accuracy to the optimal Q-functions and policies produced by
solving the environments via dynamic programming. We then introduce a novel
compaction algorithm (Greedy Niche Mass Compaction - GNMC) and study its
operation on XCSF's trained populations. Results show that given a suitable
parametrisation, GNMC preserves or even slightly improves function
approximation error while yielding a significant reduction in population size.
Reasonable preservation of policy accuracy also occurs, and we link this metric
to the commonly used steps-to-goal metric in maze-like environments,
illustrating how the metrics are complementary rather than competitive.
- Abstract(参考訳): 学習分類器システム(Learning Classifier System、LCS)は、もともとは強化学習(RL)環境で行動するエージェントとして想定されていた人口ベースの予測システムである。
これらのシステムは人口増加に悩まされるため、人口規模と性能のバランスを保とうとするコンパクト化技術に順応できる。
良く研究されたLCSアーキテクチャはXCSFであり、RL設定ではQ関数近似器として機能する。
我々は,XCSFをOpenAI GymのFrozenLake8x8環境の決定論的・確率的変種に適用し,その性能を関数近似誤差とポリシー精度の点で比較し,動的プログラミングによって環境を解決した最適Q関数とポリシーと比較した。
次に、新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入し、XCSFの訓練された人口に対する運用について検討する。
その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。
また,この指標を迷路のような環境においてよく用いられるステップ・ツー・ゴールの指標とリンクし,その指標が競合ではなく相補的であることを示す。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field
and Online Inference [50.91823345296243]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems [1.8749305679160366]
スコア・アウェア・グラデーションMD(SAGE)と呼ばれるMDPの勾配の新たなファミリーを導入する。
決定の定常分布が指数族に属する場合、SAGEは値-関数推定なしで政策勾配を推定できる。
適切な仮定の下では、適切なポリシーに十分近づき始めた場合に、ポリシー段階の手法が最適なポリシーに大きく収束していることが示される。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - A Deep Recurrent-Reinforcement Learning Method for Intelligent
AutoScaling of Serverless Functions [21.260954070091]
本稿では,関数オートスケーリングのためのモデルフリーリカレントRLエージェントについて検討し,モデルフリー近似ポリシー最適化アルゴリズムと比較する。
LSTMベースのオートスケーリングエージェントは、スループットを18%向上し、関数の実行を13%向上し、関数インスタンスを8.4%増やすことができる。
論文 参考訳(メタデータ) (2023-08-11T04:41:19Z) - Learning Efficient Coding of Natural Images with Maximum Manifold
Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。
エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。
ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文 参考訳(メタデータ) (2023-03-06T17:26:30Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Local Function Complexity for Active Learning via Mixture of Gaussian
Processes [5.382740428160009]
実世界のデータにおける不均一性は、観測ノイズレベルの変化や源関数の構造的複雑さの変化により、統計的推測に固有の課題が生じる。
本稿では,局所関数複雑性(LFC)の推定に関する最近の理論的結果について述べる。
我々は、LPSベースのLFCのガウスプロセス回帰(GPR)に基づくアナログを導出、推定し、上記のフレームワークの代用として使用し、堅牢でスケーラブルにする。
論文 参考訳(メタデータ) (2019-02-27T17:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。