論文の概要: Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization
- arxiv url: http://arxiv.org/abs/2402.05476v1
- Date: Thu, 8 Feb 2024 08:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:08:39.057972
- Title: Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization
- Title(参考訳): マルコフ決定過程政策最適化のためのマルチタイムアンサンブルq-learning
- Authors: Talha Bozkus and Urbashi Mitra
- Abstract要約: 元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。
従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
- 参考スコア(独自算出の注目度): 21.30645601474163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a classical tool to solve network control or
policy optimization problems in unknown environments. The original Q-learning
suffers from performance and complexity challenges across very large networks.
Herein, a novel model-free ensemble reinforcement learning algorithm which
adapts the classical Q-learning is proposed to handle these challenges for
networks which admit Markov decision process (MDP) models. Multiple Q-learning
algorithms are run on multiple, distinct, synthetically created and
structurally related Markovian environments in parallel; the outputs are fused
using an adaptive weighting mechanism based on the Jensen-Shannon divergence
(JSD) to obtain an approximately optimal policy with low complexity. The
theoretical justification of the algorithm, including the convergence of key
statistics and Q-functions are provided. Numerical results across several
network models show that the proposed algorithm can achieve up to 55% less
average policy error with up to 50% less runtime complexity than the
state-of-the-art Q-learning algorithms. Numerical results validate assumptions
made in the theoretical analysis.
- Abstract(参考訳): 強化学習(rl)は、ネットワーク制御や政策最適化の問題を未知の環境で解く古典的なツールである。
元々のq-learningは、非常に大きなネットワークにおけるパフォーマンスと複雑性の課題に苦しめられている。
本稿では,マルコフ決定過程(mdp)モデルを認めるネットワークに対して,古典的q-ラーニングを適用したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
複数のq-ラーニングアルゴリズムは、複数の異なる、合成された、構造的に関連したマルコフ環境上で並列に実行され、出力は、ジェンセン=シャノン分岐(jsd)に基づく適応重み付け機構を用いて融合され、複雑さの少ないおよそ最適なポリシーを得る。
鍵統計量とq関数の収束を含むアルゴリズムの理論的正当性が提供される。
複数のネットワークモデルにまたがる数値的な結果から、提案アルゴリズムは、最先端のQ-ラーニングアルゴリズムよりも実行時の複雑さを最大50%少なくして、平均ポリシー誤差を最大55%低減できることが示された。
数値結果は理論解析で得られた仮定を検証する。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Coverage Analysis of Multi-Environment Q-Learning Algorithms for Wireless Network Optimization [18.035417008213077]
最近の進歩には、アンサンブルマルチ環境ハイブリッドQ-ラーニングアルゴリズムが含まれる。
提案アルゴリズムは,現状の強化学習アルゴリズムよりも,ポリシエラーの50パーセント,実行時複雑性の40パーセントを達成可能であることを示す。
論文 参考訳(メタデータ) (2024-08-29T20:09:20Z) - Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [4.36117236405564]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-11T01:36:37Z) - Leveraging Digital Cousins for Ensemble Q-Learning in Large-Scale
Wireless Networks [21.30645601474163]
無線ネットワークを最適化する新しいアンサンブルQ-ラーニングアルゴリズムを提案する。
提案アルゴリズムは、最先端の強化学習アルゴリズムよりも実行時複雑性を最大40%低減し、平均誤差を最大50%低減することができる。
論文 参考訳(メタデータ) (2024-02-12T19:39:07Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - A Hybrid PAC Reinforcement Learning Algorithm [5.279475826661642]
本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
論文 参考訳(メタデータ) (2020-09-05T21:32:42Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。