Fugu-MT 論文翻訳(概要): First-order Policy Optimization for Robust Policy Evaluation

論文の概要: First-order Policy Optimization for Robust Policy Evaluation

arxiv url: http://arxiv.org/abs/2307.15890v1
Date: Sat, 29 Jul 2023 05:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 18:54:58.862562
Title: First-order Policy Optimization for Robust Policy Evaluation
Title（参考訳）: ロバスト政策評価のための一次政策最適化
Authors: Yan Li and Guanghui Lan
Abstract要約: 我々は,ロバストなマルコフ決定プロセスに対する政策最適化の視点を,$mathrms$rectangular ambiguity Setで採用する。 The developed method, named first-order policy evaluation (FRPE) は、決定論的(オフライン)と線形(オンライン)の両方でロバストな政策評価のための最初の統一されたフレームワークを提供する。
参考スコア（独自算出の注目度）: 10.772560347950053
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We adopt a policy optimization viewpoint towards policy evaluation for robust Markov decision process with $\mathrm{s}$-rectangular ambiguity sets. The developed method, named first-order policy evaluation (FRPE), provides the first unified framework for robust policy evaluation in both deterministic (offline) and stochastic (online) settings, with either tabular representation or generic function approximation. In particular, we establish linear convergence in the deterministic setting, and $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity in the stochastic setting. FRPE also extends naturally to evaluating the robust state-action value function with $(\mathrm{s}, \mathrm{a})$-rectangular ambiguity sets. We discuss the application of the developed results for stochastic policy optimization of large-scale robust MDPs.
Abstract（参考訳）: 我々は,$\mathrm{s}$-rectangular ambiguity 集合を用いたロバストマルコフ決定過程のポリシー評価に対するポリシー最適化の視点を採用する。この手法は一階政策評価(frpe)と呼ばれ、決定論的(オフライン)と確率的(オンライン)の設定の両方においてロバストな政策評価のための最初の統一フレームワークを提供する。特に、決定論的設定における線形収束と、確率的設定におけるサンプル複雑性を $\tilde{\mathcal{o}}(1/\epsilon^2)$ と定めている。 FRPE はまた自然に $(\mathrm{s}, \mathrm{a})$-正方形曖昧性集合で頑健な状態-作用値関数を評価するまで拡張する。大規模頑健なMDPの確率的政策最適化のための開発結果の適用について検討する。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Mirror Descent Policy Optimisation for Robust Constrained Markov Decision Processes [8.735525389833013]
本稿では、ロバスト制約付きマルコフ決定過程(RCMDP)に対するミラー降下ポリシーの最適化について述べる。我々は政策勾配法を用いて、制約されたMDPを表すラグランジアン上のポリシー(最大値)と遷移カーネル(最小値)の両方を最適化する。実験は、制約付きおよび制約なしの最適化におけるミラー降下ポリシー最適化の利点を確認し、ロバストネステストで顕著な改善が観察された。
論文参考訳（メタデータ） (2025-06-29T09:55:52Z)
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文参考訳（メタデータ） (2024-08-29T06:37:16Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。 MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。 $(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文参考訳（メタデータ） (2022-09-21T18:10:28Z)
Efficient Policy Iteration for Robust Markov Decision Processes via Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文参考訳（メタデータ） (2022-05-28T04:05:20Z)
Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。提案手法は最先端手法を著しく上回り得ることを示す。
論文参考訳（メタデータ） (2022-03-25T04:33:15Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。次に,政策最適化におけるコミット率の概念を紹介する。第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文参考訳（メタデータ） (2021-10-29T06:35:44Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文参考訳（メタデータ） (2021-07-02T16:21:52Z)
Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文参考訳（メタデータ） (2021-02-22T18:56:26Z)
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文参考訳（メタデータ） (2021-02-17T07:06:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。