論文の概要: Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes
- arxiv url: http://arxiv.org/abs/2006.13405v1
- Date: Wed, 24 Jun 2020 00:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:51:44.572580
- Title: Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes
- Title(参考訳): 因子付きマルコフ決定過程におけるミニマックス最適強化学習に向けて
- Authors: Yi Tian, Jian Qian, Suvrit Sra
- Abstract要約: エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
- 参考スコア(独自算出の注目度): 53.72166325215299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study minimax optimal reinforcement learning in episodic factored Markov
decision processes (FMDPs), which are MDPs with conditionally independent
transition components. Assuming the factorization is known, we propose two
model-based algorithms. The first one achieves minimax optimal regret
guarantees for a rich class of factored structures, while the second one enjoys
better computational complexity with a slightly worse regret. A key new
ingredient of our algorithms is the design of a bonus term to guide
exploration. We complement our algorithms by presenting several
structure-dependent lower bounds on regret for FMDPs that reveal the difficulty
hiding in the intricacy of the structures.
- Abstract(参考訳): 我々は,条件独立な遷移成分を持つmdpであるエピソディクス分解マルコフ決定過程 (fmdps) におけるミニマックス最適強化学習について検討した。
因子分解が知られていると仮定し, 2つのモデルに基づくアルゴリズムを提案する。
1つは、豊富な因子構造に対する最小限の後悔の保証を達成し、もう1つは、少し悪い後悔を伴うより良い計算複雑性を享受する。
我々のアルゴリズムの重要な新しい要素は、探索をガイドするボーナス項の設計である。
本アルゴリズムは, FMDPの難しさを隠蔽することの難しさを明らかにするために, 構造に依存した下限を複数提示することによって補完する。
関連論文リスト
- Regret Minimization via Saddle Point Optimization [29.78262192683203]
決定推定係数 (DEC) は, 構造的バンディットと強化学習における最悪の既往歴に対して, ほぼ下限および上限の値を与えることを示した。
推定・判定アルゴリズム(E2D)の任意の変種を導出する。
我々の定式化は有限モデルクラスと線形フィードバックモデルのための実用的なアルゴリズムにつながる。
論文 参考訳(メタデータ) (2024-03-15T15:09:13Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Opportunistic Episodic Reinforcement Learning [9.364712393700056]
機会論的強化学習(英: opportunistic reinforcement learning)は、変分因子として知られる外部環境条件下で、最適な行動を選択することの後悔が変化する強化学習の新たな変種である。
我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。
我々のアルゴリズムは、探索をガイドするために変動係数に依存した楽観性を導入することで、強化学習のための探索・探索トレードオフのバランスをとる。
論文 参考訳(メタデータ) (2022-10-24T18:02:33Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Learning the Markov Decision Process in the Sparse Gaussian Elimination [0.0]
スパースガウス除去のための学習に基づくアプローチを提案する。
スパースソルバの主モジュールに対するQ-Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-30T08:56:39Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Oracle-Efficient Regret Minimization in Factored MDPs with Unknown
Structure [57.90236104782219]
非絶対因子化マルコフ決定過程(FMDP)における後悔の研究
既存の全てのアルゴリズムは、FMDPの因子構造が学習者に事前に知られていると強く仮定する。
後悔を最小限に抑えながらFMDPの構造を学習する最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-13T12:30:35Z) - Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and
Tighter Regret Bounds for the Non-Episodic Setting [24.90164851620799]
非等化因子マルコフ決定過程(FMDP)における強化学習の研究
FMDPに対する2つの近似およびオラクル効率アルゴリズムを提案する。
我々のオラクル効率のアルゴリズムは、コンピュータネットワーク管理シミュレーションにおいて、これまで提案されていた近似アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-06T15:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。