論文の概要: A Hybrid PAC Reinforcement Learning Algorithm
- arxiv url: http://arxiv.org/abs/2009.02602v2
- Date: Thu, 28 Jan 2021 05:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 20:44:35.176177
- Title: A Hybrid PAC Reinforcement Learning Algorithm
- Title(参考訳): ハイブリッドPAC強化学習アルゴリズム
- Authors: Ashkan Zehfroosh and Herbert G. Tanner
- Abstract要約: 本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
- 参考スコア(独自算出の注目度): 5.279475826661642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper offers a new hybrid probably approximately correct (PAC)
reinforcement learning (RL) algorithm for Markov decision processes (MDPs) that
intelligently maintains favorable features of its parents. The designed
algorithm, referred to as the Dyna-Delayed Q-learning (DDQ) algorithm, combines
model-free and model-based learning approaches while outperforming both in most
cases. The paper includes a PAC analysis of the DDQ algorithm and a derivation
of its sample complexity. Numerical results are provided to support the claim
regarding the new algorithm's sample efficiency compared to its parents as well
as the best known model-free and model-based algorithms in application.
- Abstract(参考訳): 本稿では,マルコフ決定過程(mdps)に対して,親の好適な特徴をインテリジェントに維持する,ほぼ正解(pac)強化学習(rl)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
本論文は,DDQアルゴリズムのPAC解析とサンプル複雑性の導出を含む。
新しいアルゴリズムのサンプル効率に関する主張を両親と比較し,最もよく知られたモデルフリーおよびモデルベースアルゴリズムを応用するために,数値的な結果が提供される。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。
従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-02-08T08:08:23Z) - Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Comparing Model-free and Model-based Algorithms for Offline
Reinforcement Learning [3.1848563608930505]
各種産業ベンチマーク(IB)データセットにおけるモデルフリー、モデルベース、およびハイブリッドオフラインRLアプローチを比較した。
IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムやより単純な正規化アルゴリズムによるモデルフリーアルゴリズムなど、より単純なアルゴリズムが最適であることがわかった。
論文 参考訳(メタデータ) (2022-01-14T13:08:19Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - PAC Reinforcement Learning Algorithm for General-Sum Markov Games [5.279475826661642]
本稿では、一般的なマルコフゲームのための新しいPAC MARLアルゴリズムを構築するために、遅延Qラーニングというアイデアを用いて、よく知られたナッシュQラーニングアルゴリズムの拡張を提供する。
証明可能なPAC MARLアルゴリズムの設計の指針に加え、任意のMARLアルゴリズムがPACであるかどうかを確認することができる。
論文 参考訳(メタデータ) (2020-09-05T21:54:27Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。