論文の概要: Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and
Tighter Regret Bounds for the Non-Episodic Setting
- arxiv url: http://arxiv.org/abs/2002.02302v2
- Date: Sat, 6 Jun 2020 03:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 09:53:04.414779
- Title: Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and
Tighter Regret Bounds for the Non-Episodic Setting
- Title(参考訳): 因子付きmdpにおける強化学習:オラクルの効率のよいアルゴリズムと非正規化設定に対するより厳格な後悔の限界
- Authors: Ziping Xu and Ambuj Tewari
- Abstract要約: 非等化因子マルコフ決定過程(FMDP)における強化学習の研究
FMDPに対する2つの近似およびオラクル効率アルゴリズムを提案する。
我々のオラクル効率のアルゴリズムは、コンピュータネットワーク管理シミュレーションにおいて、これまで提案されていた近似アルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 24.90164851620799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning in non-episodic factored Markov decision
processes (FMDPs). We propose two near-optimal and oracle-efficient algorithms
for FMDPs. Assuming oracle access to an FMDP planner, they enjoy a Bayesian and
a frequentist regret bound respectively, both of which reduce to the
near-optimal bound $\widetilde{O}(DS\sqrt{AT})$ for standard non-factored MDPs.
We propose a tighter connectivity measure, factored span, for FMDPs and prove a
lower bound that depends on the factored span rather than the diameter $D$. In
order to decrease the gap between lower and upper bounds, we propose an
adaptation of the REGAL.C algorithm whose regret bound depends on the factored
span. Our oracle-efficient algorithms outperform previously proposed
near-optimal algorithms on computer network administration simulations.
- Abstract(参考訳): 非等化因子マルコフ決定過程(FMDP)における強化学習について検討した。
FMDPに対する2つの近似およびオラクル効率アルゴリズムを提案する。
FMDPプランナーへのオラクルアクセスを仮定すると、彼らはそれぞれベイズ的および頻繁な後悔境界(英語版)を楽しんでおり、どちらも標準の非分解 MDP に対して、ほぼ最適の$\widetilde{O}(DS\sqrt{AT})$に還元される。
fmdps に対して,より密接な接続尺度である factored span を提案し,直径$d$ ではなく factored span に依存する下界を証明した。
本研究では,下界と上界のギャップを低減するために,因果関係に依存するREGAL.Cアルゴリズムの適応法を提案する。
oracleの効率的なアルゴリズムは、コンピュータネットワーク管理シミュレーションで提案されているほぼ最適アルゴリズムよりも優れています。
関連論文リスト
- Efficient Exploration in Average-Reward Constrained Reinforcement Learning: Achieving Near-Optimal Regret With Posterior Sampling [14.776559457850624]
制約付きマルコフ決定過程(CMDP)における学習のための後方サンプリングに基づく新しいアルゴリズムを提案する。
このアルゴリズムは,既存のアルゴリズムと比較して経験的に有利でありながら,ほぼ最適の後悔境界を達成している。
論文 参考訳(メタデータ) (2024-05-29T11:59:56Z) - Logarithmic Switching Cost in Reinforcement Learning beyond Linear MDPs [31.673857053336352]
本稿では,時間ホリゾン$H$において,エピソード数と線形数に切り替えコストの対数性を持たせることで,ほぼ最適の後悔を実現するアルゴリズムを提案する。
また、ELEANOR-LowSwitchingで使われる「二重化トリック」を一般化線形関数近似にさらに活用できることを示す。
論文 参考訳(メタデータ) (2023-02-24T05:14:27Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Reinforcement Learning for Finite-Horizon Restless Multi-Armed
Multi-Action Bandits [8.136957953239254]
本稿では、R(MA)2Bと呼ばれる複数の動作を持つ有限ホライゾンレス・マルチアームバンディット問題について検討する。
各アームの状態は、制御されたマルコフ決定プロセス(MDP)に従って進化し、アームを引く報酬は、対応するMDPの現在の状態と、取られたアクションの両方に依存する。
最適政策の発見は典型的には難解であるため,我々はOccupancy-Measured-Reward Index Policyと呼ぶ,計算に訴える指標ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-20T21:40:12Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Oracle-Efficient Regret Minimization in Factored MDPs with Unknown
Structure [57.90236104782219]
非絶対因子化マルコフ決定過程(FMDP)における後悔の研究
既存の全てのアルゴリズムは、FMDPの因子構造が学習者に事前に知られていると強く仮定する。
後悔を最小限に抑えながらFMDPの構造を学習する最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-13T12:30:35Z) - Efficient Reinforcement Learning in Factored MDPs with Application to
Constrained RL [25.119552984253882]
マルコフ決定過程(FMDP)における強化学習について検討した。
本稿では,FMDPの分解構造を利用したFMDP-BFアルゴリズムを提案する。
応用として,knapsack 制約付き RL (RLwK) と呼ばれる制約付き RL の新しい定式化について検討する。
論文 参考訳(メタデータ) (2020-08-31T02:20:41Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。