Fugu-MT 論文翻訳(概要): Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement Learning

論文の概要: Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement Learning

arxiv url: http://arxiv.org/abs/2009.01476v1
Date: Thu, 3 Sep 2020 06:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-22 06:58:12.099514
Title: Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement Learning
Title（参考訳）: 離散強化学習におけるXCSF圧縮の最適性に基づく解析
Authors: Jordan T. Bishop, Marcus Gallagher
Abstract要約: 本稿では,新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入する。その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。このメトリクスを迷路のような環境でよく使われるステップ・ツー・ゴールのメトリクスにリンクし、メトリクスが競合するよりも補完的であるかを説明します。
参考スコア（独自算出の注目度）: 4.9444321684311925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning classifier systems (LCSs) are population-based predictive systems that were originally envisioned as agents to act in reinforcement learning (RL) environments. These systems can suffer from population bloat and so are amenable to compaction techniques that try to strike a balance between population size and performance. A well-studied LCS architecture is XCSF, which in the RL setting acts as a Q-function approximator. We apply XCSF to a deterministic and stochastic variant of the FrozenLake8x8 environment from OpenAI Gym, with its performance compared in terms of function approximation error and policy accuracy to the optimal Q-functions and policies produced by solving the environments via dynamic programming. We then introduce a novel compaction algorithm (Greedy Niche Mass Compaction - GNMC) and study its operation on XCSF's trained populations. Results show that given a suitable parametrisation, GNMC preserves or even slightly improves function approximation error while yielding a significant reduction in population size. Reasonable preservation of policy accuracy also occurs, and we link this metric to the commonly used steps-to-goal metric in maze-like environments, illustrating how the metrics are complementary rather than competitive.
Abstract（参考訳）: 学習分類器システム(Learning Classifier System、LCS)は、もともとは強化学習(RL)環境で行動するエージェントとして想定されていた人口ベースの予測システムである。これらのシステムは人口増加に悩まされるため、人口規模と性能のバランスを保とうとするコンパクト化技術に順応できる。良く研究されたLCSアーキテクチャはXCSFであり、RL設定ではQ関数近似器として機能する。我々は,XCSFをOpenAI GymのFrozenLake8x8環境の決定論的・確率的変種に適用し,その性能を関数近似誤差とポリシー精度の点で比較し,動的プログラミングによって環境を解決した最適Q関数とポリシーと比較した。次に、新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入し、XCSFの訓練された人口に対する運用について検討する。その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。また,この指標を迷路のような環境においてよく用いられるステップ・ツー・ゴールの指標とリンクし,その指標が競合ではなく相補的であることを示す。

関連論文リスト

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。 RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文参考訳（メタデータ） (2025-05-23T06:01:21Z)
Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文参考訳（メタデータ） (2025-04-30T05:26:51Z)
Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm [54.98788921815576]
我々は,textbfLocalityをベースとしたtextbfFactorized textbfMulti-Agent textbfActor-textbfCritic (Loc-FACMAC) という新しい協調型マルチエージェント強化学習法を提案する。我々は、局所性の概念を批判的学習に統合し、トレーニング中に強く関連するロボットが分割を形成する。提案手法は,局所的な報酬に着目し,分割型学習を活用して既存のアルゴリズムを改良し,学習効率と性能を向上させる。
論文参考訳（メタデータ） (2025-03-24T16:00:16Z)
Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文参考訳（メタデータ） (2024-11-14T11:16:32Z)
Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。 PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文参考訳（メタデータ） (2024-08-28T08:35:34Z)
Hyperparameters in Continual Learning: A Reality Check [53.30082523545212]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
論文参考訳（メタデータ） (2024-03-14T03:13:01Z)
A Deep Recurrent-Reinforcement Learning Method for Intelligent AutoScaling of Serverless Functions [18.36339203254509]
Fは軽量で関数ベースのクラウド実行モデルを導入し、IoTエッジデータ処理や異常検出など、さまざまなアプリケーションでその妥当性を見出す。
論文参考訳（メタデータ） (2023-08-11T04:41:19Z)
Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning [9.202586157819693]
非合成対象函数のロバスト性を最小化する二次法は、典型的には微分可能部分のリプシッツ滑らか性に依存する。本稿では適応性のみを考慮したBregman(SBPG)手法のファミリーを提案する。 MSBPGは運動量に基づく変種であり、ミニバッチサイズ要求を緩和することで収束感度を高める。
論文参考訳（メタデータ） (2023-06-26T08:54:46Z)
Learning Efficient Coding of Natural Images with Maximum Manifold Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文参考訳（メタデータ） (2023-03-06T17:26:30Z)
Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文参考訳（メタデータ） (2022-04-08T20:46:16Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Stochastic Optimization of Areas Under Precision-Recall Curves with Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文参考訳（メタデータ） (2021-04-18T06:22:21Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Local Function Complexity for Active Learning via Mixture of Gaussian Processes [5.382740428160009]
実世界のデータにおける不均一性は、観測ノイズレベルの変化や源関数の構造的複雑さの変化により、統計的推測に固有の課題が生じる。本稿では,局所関数複雑性(LFC)の推定に関する最近の理論的結果について述べる。我々は、LPSベースのLFCのガウスプロセス回帰(GPR)に基づくアナログを導出、推定し、上記のフレームワークの代用として使用し、堅牢でスケーラブルにする。
論文参考訳（メタデータ） (2019-02-27T17:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。