論文の概要: Blackwell Online Learning for Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2012.14043v1
- Date: Mon, 28 Dec 2020 00:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 19:00:30.906666
- Title: Blackwell Online Learning for Markov Decision Processes
- Title(参考訳): マルコフ決定プロセスのためのブラックウェルオンライン学習
- Authors: Tao Li, Guanze Peng, Quanyan Zhu
- Abstract要約: 本研究は,オンライン最適化の観点からのマルコフ決定過程(mdp)の新しい解釈を提供する。
MDPにより誘導されるブラックウェルゲームを構築し、後悔の最小化、ブラックウェルアプローチ可能性理論、MDPの学習理論のギャップを埋める。
- 参考スコア(独自算出の注目度): 28.79413432611949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work provides a novel interpretation of Markov Decision Processes (MDP)
from the online optimization viewpoint. In such an online optimization context,
the policy of the MDP is viewed as the decision variable while the
corresponding value function is treated as payoff feedback from the
environment. Based on this interpretation, we construct a Blackwell game
induced by MDP, which bridges the gap among regret minimization, Blackwell
approachability theory, and learning theory for MDP. Specifically, from the
approachability theory, we propose 1) Blackwell value iteration for offline
planning and 2) Blackwell $Q-$learning for online learning in MDP, both of
which are shown to converge to the optimal solution. Our theoretical guarantees
are corroborated by numerical experiments.
- Abstract(参考訳): 本研究は,オンライン最適化の観点からのマルコフ決定過程(mdp)の新しい解釈を提供する。
このようなオンライン最適化コンテキストでは、mdpのポリシーは決定変数と見なされ、対応する値関数は環境からの報酬フィードバックとして扱われる。
この解釈に基づいて,後悔の最小化,ブラックウェル接近可能性理論,MDPの学習理論のギャップを埋める,MDPによって誘導されるブラックウェルゲームを構築する。
具体的には,1)オフライン計画のためのblackwell値反復と,2)mdpにおけるオンライン学習のためのblackwell $q-$learningを提案する。
我々の理論的保証は数値実験によって裏付けられている。
関連論文リスト
- A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Reducing Blackwell and Average Optimality to Discounted MDPs via the
Blackwell Discount Factor [13.544364903649196]
意思決定プロセス(MDP)におけるブラックウェル割引係数について紹介する。
割引係数がブラックウェル割引係数$gamma_mathrmbw$より大きい場合、すべての割引された最適ポリシーがブラックウェルおよび平均最適となることを示す。
論文 参考訳(メタデータ) (2023-01-31T19:11:17Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Bridging the gap between QP-based and MPC-based RL [1.90365714903665]
擬似プログラム(QP)の形式を採り、最適化問題を用いてポリシーと値関数を近似する。
汎用的非構造化QPは学習に高い柔軟性を提供する一方、MPCスキームの構造を持つQPは、その結果のポリシーの説明可能性を促進する。
本稿では,提案手法の動作と結果の構造をポイントマスタスクを用いて記述する。
論文 参考訳(メタデータ) (2022-05-18T10:41:18Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Understanding Curriculum Learning in Policy Optimization for Online
Combinatorial Optimization [66.35750142827898]
本稿では,オンラインCO問題に対するポリシー最適化手法に関する最初の体系的研究について述べる。
我々は、オンラインCO問題は、潜在マルコフ決定過程(LMDP)として自然に定式化でき、自然政策勾配(NPG)に収束することを示す。
さらに,本理論はカリキュラム学習の利点を解説し,強力なサンプリングポリシーを見出すことができ,流通シフトを低減できることを示した。
論文 参考訳(メタデータ) (2022-02-11T03:17:15Z) - Sample Efficient Reinforcement Learning In Continuous State Spaces: A
Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。
EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。
また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文 参考訳(メタデータ) (2021-06-15T00:06:59Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。