論文の概要: Refined Analysis of FPL for Adversarial Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2008.09251v1
- Date: Fri, 21 Aug 2020 01:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:01:51.040921
- Title: Refined Analysis of FPL for Adversarial Markov Decision Processes
- Title(参考訳): 逆マルコフ決定過程におけるFPLの精製解析
- Authors: Yuanhao Wang and Kefan Dong
- Abstract要約: FPL(Follow-the-PerturbedLeader)ベースのアルゴリズムは、以前の文献で提案されている。
我々は、FPLベースのアルゴリズムを両方の設定で解析し、より高速でより単純なアルゴリズムを用いて、現在の最良後悔境界をマッチングする。
- 参考スコア(独自算出の注目度): 9.188318506016897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the adversarial Markov Decision Process (MDP) problem, where the
rewards for the MDP can be adversarially chosen, and the transition function
can be either known or unknown. In both settings, Follow-the-PerturbedLeader
(FPL) based algorithms have been proposed in previous literature. However, the
established regret bounds for FPL based algorithms are worse than algorithms
based on mirrordescent. We improve the analysis of FPL based algorithms in both
settings, matching the current best regret bounds using faster and simpler
algorithms.
- Abstract(参考訳): 我々は,MDPに対する報酬を逆選択し,遷移関数を未知あるいは未知とすることができる,逆マルコフ決定過程(MDP)問題を考える。
どちらの設定でも、FPL(Follow-the-PerturbedLeader)ベースのアルゴリズムは以前の文献で提案されている。
しかし、FPLベースのアルゴリズムの既定の後悔境界は、ミラードネッセントに基づくアルゴリズムよりも悪い。
我々は,fplベースのアルゴリズムを両設定で解析し,より高速で簡単なアルゴリズムを用いて,現在の最善の後悔領域に適合させる。
関連論文リスト
- Optimism in the Face of Ambiguity Principle for Multi-Armed Bandits [6.7310264583128445]
FTRL (Follow-The-Regularized-Leader) アルゴリズムは、しばしば敵対的問題や盗賊問題に対して最適な後悔を味わう。
本稿では,逆方向と多重方向の両方の帯域に対して最適なポリシを生成する新しいFTPLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-30T16:00:23Z) - Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes [12.76843681997386]
ポリシー最適化(PO)手法は、実際に最も人気のある強化学習(RL)アルゴリズムの一つである。
本稿では,線形マルコフ決定過程 (MDP) モデルに基づくPOアルゴリズムを提案する。
我々のアルゴリズムは、問題の他のパラメータへの依存性を改善して後悔する。
論文 参考訳(メタデータ) (2024-07-03T12:36:24Z) - Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes
with Bandit Feedback [35.687473978249535]
本稿では, 損失関数が時間とともに変化し, 逆選択されるAMDP(Adversarial Markov Decision Processs)に対する後悔について考察する。
Online-Mirror-Descent(OMD)法によるこの問題の研究が急増しているが、Follow-the-Perturbed-Leader(FTPL)法についてはほとんど知られていない。
我々は,帯域幅のフィードバックと遷移を伴う無限水平環境において,AMDPを学習するための最初のノンレグレットアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-05-26T15:55:50Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z) - Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and
Tighter Regret Bounds for the Non-Episodic Setting [24.90164851620799]
非等化因子マルコフ決定過程(FMDP)における強化学習の研究
FMDPに対する2つの近似およびオラクル効率アルゴリズムを提案する。
我々のオラクル効率のアルゴリズムは、コンピュータネットワーク管理シミュレーションにおいて、これまで提案されていた近似アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-06T15:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。