論文の概要: Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization
- arxiv url: http://arxiv.org/abs/2402.05476v1
- Date: Thu, 8 Feb 2024 08:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:08:39.057972
- Title: Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization
- Title(参考訳): マルコフ決定過程政策最適化のためのマルチタイムアンサンブルq-learning
- Authors: Talha Bozkus and Urbashi Mitra
- Abstract要約: 元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。
従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
- 参考スコア(独自算出の注目度): 21.30645601474163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a classical tool to solve network control or
policy optimization problems in unknown environments. The original Q-learning
suffers from performance and complexity challenges across very large networks.
Herein, a novel model-free ensemble reinforcement learning algorithm which
adapts the classical Q-learning is proposed to handle these challenges for
networks which admit Markov decision process (MDP) models. Multiple Q-learning
algorithms are run on multiple, distinct, synthetically created and
structurally related Markovian environments in parallel; the outputs are fused
using an adaptive weighting mechanism based on the Jensen-Shannon divergence
(JSD) to obtain an approximately optimal policy with low complexity. The
theoretical justification of the algorithm, including the convergence of key
statistics and Q-functions are provided. Numerical results across several
network models show that the proposed algorithm can achieve up to 55% less
average policy error with up to 50% less runtime complexity than the
state-of-the-art Q-learning algorithms. Numerical results validate assumptions
made in the theoretical analysis.
- Abstract(参考訳): 強化学習(rl)は、ネットワーク制御や政策最適化の問題を未知の環境で解く古典的なツールである。
元々のq-learningは、非常に大きなネットワークにおけるパフォーマンスと複雑性の課題に苦しめられている。
本稿では,マルコフ決定過程(mdp)モデルを認めるネットワークに対して,古典的q-ラーニングを適用したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
複数のq-ラーニングアルゴリズムは、複数の異なる、合成された、構造的に関連したマルコフ環境上で並列に実行され、出力は、ジェンセン=シャノン分岐(jsd)に基づく適応重み付け機構を用いて融合され、複雑さの少ないおよそ最適なポリシーを得る。
鍵統計量とq関数の収束を含むアルゴリズムの理論的正当性が提供される。
複数のネットワークモデルにまたがる数値的な結果から、提案アルゴリズムは、最先端のQ-ラーニングアルゴリズムよりも実行時の複雑さを最大50%少なくして、平均ポリシー誤差を最大55%低減できることが示された。
数値結果は理論解析で得られた仮定を検証する。
関連論文リスト
- Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [5.152147416671501]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-11T01:36:37Z) - Leveraging Digital Cousins for Ensemble Q-Learning in Large-Scale
Wireless Networks [21.30645601474163]
無線ネットワークを最適化する新しいアンサンブルQ-ラーニングアルゴリズムを提案する。
提案アルゴリズムは、最先端の強化学習アルゴリズムよりも実行時複雑性を最大40%低減し、平均誤差を最大50%低減することができる。
論文 参考訳(メタデータ) (2024-02-12T19:39:07Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - A Hybrid PAC Reinforcement Learning Algorithm [5.279475826661642]
本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
論文 参考訳(メタデータ) (2020-09-05T21:32:42Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。