Fugu-MT 論文翻訳(概要): Efficient Global Planning in Large MDPs via Stochastic Primal-Dual Optimization

論文の概要: Efficient Global Planning in Large MDPs via Stochastic Primal-Dual Optimization

arxiv url: http://arxiv.org/abs/2210.12057v1
Date: Fri, 21 Oct 2022 15:49:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 16:14:06.915161
Title: Efficient Global Planning in Large MDPs via Stochastic Primal-Dual Optimization
Title（参考訳）: 確率的原始双対最適化による大規模MDPの効率的なグローバルプランニング
Authors: Gergely Neu, Nneka Okolo
Abstract要約: 提案手法は, 生成モデルに対する多数のクエリの後に, ほぼ最適ポリシーを出力することを示す。提案手法は計算効率が高く,低次元パラメータベクトルでコンパクトに表現される単一のソフトマックスポリシーを出力する点が大きな利点である。
参考スコア（独自算出の注目度）: 12.411844611718958
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new stochastic primal-dual optimization algorithm for planning in a large discounted Markov decision process with a generative model and linear function approximation. Assuming that the feature map approximately satisfies standard realizability and Bellman-closedness conditions and also that the feature vectors of all state-action pairs are representable as convex combinations of a small core set of state-action pairs, we show that our method outputs a near-optimal policy after a polynomial number of queries to the generative model. Our method is computationally efficient and comes with the major advantage that it outputs a single softmax policy that is compactly represented by a low-dimensional parameter vector, and does not need to execute computationally expensive local planning subroutines in runtime.
Abstract（参考訳）: 生成モデルと線形関数近似を用いた大規模なマルコフ決定過程における確率的原始双対最適化アルゴリズムを提案する。特徴写像が標準実現可能性とベルマン閉性条件を概ね満たし、全ての状態-作用対の特徴ベクトルが、状態-作用対の小さなコア組の凸結合として表現可能であると仮定すると、本手法は多項式数のクエリーを生成モデルに出力した後、最適に近いポリシーを出力することを示す。提案手法は計算効率が高く,低次元パラメータベクトルでコンパクトに表現された単一ソフトマックスポリシーを出力し,計算コストのかかるローカルプランニングサブルーチンを実行時に実行する必要がないという大きな利点がある。

関連論文リスト

Global Optimization of Gaussian Process Acquisition Functions Using a Piecewise-Linear Kernel Approximation [2.3342885570554652]
本稿では,プロセスカーネルに対する一括近似と,取得関数に対するMIQP表現を紹介する。我々は,合成関数,制約付きベンチマーク,ハイパーチューニングタスクに関するフレームワークを実証的に実証した。
論文参考訳（メタデータ） (2024-10-22T10:56:52Z)
Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文参考訳（メタデータ） (2024-01-26T20:45:40Z)
Self-concordant Smoothing for Large-Scale Convex Composite Optimization [0.0]
2つの凸関数の和を最小化する自己協和スムージングの概念を導入し、そのうちの1つは滑らかであり、もう1つは非滑らかである。本稿では, 近位ニュートンアルゴリズムであるProx-N-SCOREと近位一般化したガウスニュートンアルゴリズムであるProx-GGN-SCOREの2つのアルゴリズムの収束性を証明する。
論文参考訳（メタデータ） (2023-09-04T19:47:04Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
Non-Convex Optimization with Certificates and Fast Rates Through Kernel Sums of Squares [68.8204255655161]
非最適化近似問題を考える。本稿では,最優先計算を保証するアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-04-11T09:37:04Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文参考訳（メタデータ） (2021-02-27T19:28:39Z)
Efficient semidefinite-programming-based inference for binary and multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文参考訳（メタデータ） (2020-12-04T15:36:29Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Efficient Planning in Large MDPs with Weak Linear Function Approximation [4.56877715768796]
大規模意思決定プロセス(MDP)は、MDPの状態を独立して計画アルゴリズムを必要とする。線形値関数近似を用いたMDPの計画問題を考える。
論文参考訳（メタデータ） (2020-07-13T04:40:41Z)
Kernel Taylor-Based Value Function Approximation for Continuous-State Markov Decision Processes [5.894659354028797]
我々は,カーネルベースのポリシー反復アルゴリズムを提案し,連続状態マルコフ決定過程(MDP)を解く。提案手法は, 簡易計画シナリオと現実計画シナリオの両方において, 広範囲なシミュレーションにより検証した。
論文参考訳（メタデータ） (2020-06-03T01:48:43Z)
Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。提案手法の順序の順序による時間収束を,総じて低減する。
論文参考訳（メタデータ） (2020-05-21T20:59:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。