Fugu-MT 論文翻訳(概要): Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes

論文の概要: Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes

arxiv url: http://arxiv.org/abs/2407.03065v1
Date: Wed, 3 Jul 2024 12:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 14:16:16.247683
Title: Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes
Title（参考訳）: ウォームアップ自由政策最適化:リニアマルコフ決定過程におけるレグレットの改善
Authors: Asaf Cassel, Aviv Rosenberg,
Abstract要約: ポリシー最適化(PO)手法は、実際に最も人気のある強化学習(RL)アルゴリズムの一つである。本稿では,線形マルコフ決定過程 (MDP) モデルに基づくPOアルゴリズムを提案する。我々のアルゴリズムは、問題の他のパラメータへの依存性を改善して後悔する。
参考スコア（独自算出の注目度）: 12.76843681997386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy Optimization (PO) methods are among the most popular Reinforcement Learning (RL) algorithms in practice. Recently, Sherman et al. [2023a] proposed a PO-based algorithm with rate-optimal regret guarantees under the linear Markov Decision Process (MDP) model. However, their algorithm relies on a costly pure exploration warm-up phase that is hard to implement in practice. This paper eliminates this undesired warm-up phase, replacing it with a simple and efficient contraction mechanism. Our PO algorithm achieves rate-optimal regret with improved dependence on the other parameters of the problem (horizon and function approximation dimension) in two fundamental settings: adversarial losses with full-information feedback and stochastic losses with bandit feedback.
Abstract（参考訳）: ポリシー最適化(PO)手法は、実際に最も人気のある強化学習(RL)アルゴリズムの一つである。近年、シャーマンらは、線形マルコフ決定過程(MDP)モデルの下で、レート最適後悔を保証するPOベースのアルゴリズムを提案している。しかし、彼らのアルゴリズムは、実際は実装が難しい、コストのかかる純粋な探索ウォームアップフェーズに依存している。本稿では、この不要なウォームアップフェーズを取り除き、シンプルで効率的な収縮機構に置き換える。我々のPOアルゴリズムは、2つの基本的な設定において問題の他のパラメータ(水平および関数近似次元)への依存を改善して、レート最適の後悔を達成している。

関連論文リスト

An Efficient On-Policy Deep Learning Framework for Stochastic Optimal Control [14.832859803172846]
本稿では、最適制御(SOC)問題を解決するための新しいオン政治アルゴリズムを提案する。ギルサノフの定理を利用することで、微分方程式や随伴問題解による高価なバックプロパゲーションを伴わずに、SOC対象の政治的勾配を直接計算する。実験により,従来の手法に比べて計算速度とメモリ効率が大幅に向上した。
論文参考訳（メタデータ） (2024-10-07T16:16:53Z)
Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback [34.7178680288326]
Stradi et al.(2024) は、マルコフ決定過程に制約のある最初のベスト・オブ・ボス・ワールドズ・アルゴリズムを提案した。本稿では,CMDPにおける帯域幅フィードバックを用いたベスト・オブ・ワールドズ・アルゴリズムを提案する。本アルゴリズムは政策最適化手法に基づいており, 占有率に基づく手法よりも効率的である。
論文参考訳（メタデータ） (2024-10-03T07:44:40Z)
Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In Time [13.545356254920584]
本稿では,分散削減を利用したモデルフリーアルゴリズムと,実行方針を低速かつ適応的に切り替える新しい手法を提案する。これは割引設定における最初の後悔の最適モデルフリーアルゴリズムであり、バーンイン時間の短縮によるメリットがある。
論文参考訳（メタデータ） (2023-05-24T20:22:43Z)
Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。 Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文参考訳（メタデータ） (2022-11-15T03:46:41Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文参考訳（メタデータ） (2021-02-27T19:28:39Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文参考訳（メタデータ） (2020-07-01T18:43:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。