Fugu-MT 論文翻訳(概要): Sharp high-probability sample complexities for policy evaluation with linear function approximation

論文の概要: Sharp high-probability sample complexities for policy evaluation with linear function approximation

arxiv url: http://arxiv.org/abs/2305.19001v1
Date: Tue, 30 May 2023 12:58:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 16:23:12.096748
Title: Sharp high-probability sample complexities for policy evaluation with linear function approximation
Title（参考訳）: 線形関数近似を用いた政策評価のためのシャープ高確率サンプル複合体
Authors: Gen Li, Weichen Wu, Yuejie Chi, Cong Ma, Alessandro Rinaldo, Yuting Wei
Abstract要約: 本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
参考スコア（独自算出の注目度）: 99.51752176624818
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper is concerned with the problem of policy evaluation with linear function approximation in discounted infinite horizon Markov decision processes. We investigate the sample complexities required to guarantee a predefined estimation error of the best linear coefficients for two widely-used policy evaluation algorithms: the temporal difference (TD) learning algorithm and the two-timescale linear TD with gradient correction (TDC) algorithm. In both the on-policy setting, where observations are generated from the target policy, and the off-policy setting, where samples are drawn from a behavior policy potentially different from the target policy, we establish the first sample complexity bound with high-probability convergence guarantee that attains the optimal dependence on the tolerance level. We also exhihit an explicit dependence on problem-related quantities, and show in the on-policy setting that our upper bound matches the minimax lower bound on crucial problem parameters, including the choice of the feature maps and the problem dimension.
Abstract（参考訳）: 本稿では, 無限地平面マルコフ決定過程における線形関数近似を用いた政策評価の問題について述べる。本研究では, 時差学習法(td)と勾配補正法(tdc)法(tdc)の2つの手法について, 最適線形係数の事前推定誤差の保証に必要なサンプル複素性について検討した。対象ポリシーから観察が生成されるオンポリシー設定と、対象ポリシーと潜在的に異なる行動ポリシーからサンプルが引き出されるオフポリシー設定の両方において、許容レベルへの最適依存性を達成する高確率収束保証に結びついた最初のサンプル複雑性を確立する。また,問題関連量への明示的な依存を強調し,上限が問題パラメータの最小値下限と一致することをオンポリシー設定で示し,特徴写像の選択や問題次元を含む。

関連論文リスト

Policy Testing in Markov Decision Processes [48.642181362172906]
本研究では,不確実性条件下での割引決定プロセス(MDP)におけるポリシーテスト問題について検討する。目的は、与えられたポリシーの値が数値しきい値を超えるかどうかを決定することである。
論文参考訳（メタデータ） (2025-05-21T10:13:54Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文参考訳（メタデータ） (2024-08-05T14:11:51Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Linear Convergence for Natural Policy Gradient with Log-linear Policy Parametrization [18.072051868187934]
正規化されていない自然政策アルゴリズムの収束速度を対数線形ポリシーパラメトリゼーションを用いて解析する。このアルゴリズムは、決定論の場合と同じ線形保証を誤差項まで楽しむことを示す。
論文参考訳（メタデータ） (2022-09-30T11:17:44Z)
Sample Complexity of Policy-Based Methods under Off-Policy Sampling and Linear Function Approximation [8.465228064780748]
政策評価には、オフ政治サンプリングと線形関数近似を用いる。自然政策勾配(NPG)を含む様々な政策更新規則が政策更新のために検討されている。我々は、最適なポリシーを見つけるために、合計$mathcalO(epsilon-2)$サンプルの複雑さを初めて確立する。
論文参考訳（メタデータ） (2022-08-05T15:59:05Z)
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文参考訳（メタデータ） (2022-06-06T04:28:04Z)
Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-08T00:43:04Z)
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。我々は、ある政策の境界を推定するアプローチを開発する。より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文参考訳（メタデータ） (2020-02-11T16:18:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。