論文の概要: Optimistic Planning by Regularized Dynamic Programming
- arxiv url: http://arxiv.org/abs/2302.14004v3
- Date: Wed, 14 Jun 2023 12:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 01:56:22.619849
- Title: Optimistic Planning by Regularized Dynamic Programming
- Title(参考訳): 正規化動的プログラミングによる最適計画
- Authors: Antoine Moulin, Gergely Neu
- Abstract要約: 無限水平割引マルコフ決定過程における楽観的計画法を提案する。
この手法により、縮退や単調な議論を避けることができる。
ほぼ最適統計保証が得られることを示す。
- 参考スコア(独自算出の注目度): 12.411844611718958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new method for optimistic planning in infinite-horizon
discounted Markov decision processes based on the idea of adding regularization
to the updates of an otherwise standard approximate value iteration procedure.
This technique allows us to avoid contraction and monotonicity arguments
typically required by existing analyses of approximate dynamic programming
methods, and in particular to use approximate transition functions estimated
via least-squares procedures in MDPs with linear function approximation. We use
our method to recover known guarantees in tabular MDPs and to provide a
computationally efficient algorithm for learning near-optimal policies in
discounted linear mixture MDPs from a single stream of experience, and show it
achieves near-optimal statistical guarantees.
- Abstract(参考訳): 本稿では,標準近似値反復手順の更新に正規化を加えるという考え方に基づいて,無限ホライゾン割引マルコフ決定過程における楽観的計画手法を提案する。
この手法により, 線形関数近似を用いたMDPの最小二乗法により推定される近似遷移関数を, 既存の近似動的プログラミング手法の分析で必要とされる縮退や単調性引数を回避することができる。
本手法は,表付きMDPの既知保証を回復し,また,1つの経験ストリームから,割引された線形混合MDPの準最適ポリシーを学習するための計算効率の良いアルゴリズムを提供する。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Locally Optimal Descent for Dynamic Stepsize Scheduling [45.6809308002043]
本稿では,段階的スケジュールのマニュアルと時間的チューニングを簡略化することを目的とした,理論に基づく新しい動的学習スケジューリング手法を提案する。
本手法は,スムーズな勾配方向の局所最適練習速度を推定することに基づく。
提案手法は,既存手法と比較して最小限のチューニングが必要であることが示唆された。
論文 参考訳(メタデータ) (2023-11-23T09:57:35Z) - Efficient Global Planning in Large MDPs via Stochastic Primal-Dual
Optimization [12.411844611718958]
提案手法は, 生成モデルに対する多数のクエリの後に, ほぼ最適ポリシーを出力することを示す。
提案手法は計算効率が高く,低次元パラメータベクトルでコンパクトに表現される単一のソフトマックスポリシーを出力する点が大きな利点である。
論文 参考訳(メタデータ) (2022-10-21T15:49:20Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。