Fugu-MT 論文翻訳(概要): UVIP: Model-Free Approach to Evaluate Reinforcement Learning Algorithms

論文の概要: UVIP: Model-Free Approach to Evaluate Reinforcement Learning Algorithms

arxiv url: http://arxiv.org/abs/2105.02135v4
Date: Mon, 07 Oct 2024 15:27:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 03:13:58.659937
Title: UVIP: Model-Free Approach to Evaluate Reinforcement Learning Algorithms
Title（参考訳）: UVIP:強化学習アルゴリズムの評価のためのモデルフリーアプローチ
Authors: Ilya Levin, Denis Belomestny, Alexey Naumov, Sergey Samsonov,
Abstract要約: 政策評価は強化学習(RL)における異なるアルゴリズムの比較のための重要な手段である Vstar(x) - Vpi(x)$を上から推定し、$Vstar$に対する信頼区間を構築することができる。一般的な仮定の下では$sf UVIP$の理論的保証を提供し、その性能を多くのベンチマークRL問題で示す。
参考スコア（独自算出の注目度）: 5.582861438320171
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy evaluation is an important instrument for the comparison of different algorithms in Reinforcement Learning (RL). Yet even a precise knowledge of the value function $V^{\pi}$ corresponding to a policy $\pi$ does not provide reliable information on how far is the policy $\pi$ from the optimal one. We present a novel model-free upper value iteration procedure $({\sf UVIP})$ that allows us to estimate the suboptimality gap $V^{\star}(x) - V^{\pi}(x)$ from above and to construct confidence intervals for $V^\star$. Our approach relies on upper bounds to the solution of the Bellman optimality equation via martingale approach. We provide theoretical guarantees for ${\sf UVIP}$ under general assumptions and illustrate its performance on a number of benchmark RL problems.
Abstract（参考訳）: 政策評価は、強化学習(RL)における異なるアルゴリズムの比較において重要な手段である。しかし、値関数の正確な知識である$V^{\pi}$も、ポリシー$\pi$は、ポリシー$\pi$が最適値からどれくらい遠いかという信頼できる情報を提供していない。モデルフリーな上値反復手順 $({\sf UVIP})$ は、上からサブ最適性ギャップ $V^{\star}(x) - V^{\pi}(x)$ を推定し、$V^\star$ に対する信頼区間を構築することができる。我々のアプローチは、マルティンゲールアプローチによるベルマン最適性方程式の解の上限に依存する。我々は、一般的な仮定の下で${\sf UVIP}$の理論的な保証を提供し、その性能を多くのベンチマークRL問題で示す。

関連論文リスト

Efficient $Q$-Learning and Actor-Critic Methods for Robust Average Reward Reinforcement Learning [32.07657827173262]
頑健な$Q$ベルマン作用素は、慎重に構築された半ノルムに対して厳密な縮約写像であることを示す。我々は、$tildecO(epsilon-3)$サンプルにおいて、$epsilon$-optimal robust policyを達成できる自然なアクター批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-08T08:26:27Z)
Actor-Critics Can Achieve Optimal Sample Efficiency [15.033410073144939]
我々は,$O(dH5 log|mathcalA|/epsilon2 + dH4 log|mathcalF|/epsilon2)$ trajectories のサンプル複雑度を得る新しいアクター批判アルゴリズムを提案する。我々はこれをHybrid RLの設定にまで拡張し、批評家をオフラインデータで初期化すると、純粋なオフラインやオンラインRLに比べてサンプル効率が向上することを示した。
論文参考訳（メタデータ） (2025-05-06T17:32:39Z)
Sharper Model-free Reinforcement Learning for Average-reward Markov Decision Processes [21.77276136591518]
我々はマルコフ決定過程(MDPs)のための証明可能なモデルフリー強化学習(RL)アルゴリズムを開発した。シミュレータ設定では,$widetildeO left(fracSAmathrmsp(h*)epsilon2+fracS2Amathrmsp(h*)epsilon2right)$サンプルを用いて,$epsilon$-optimal Policyを求める。
論文参考訳（メタデータ） (2023-06-28T17:43:19Z)
Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。 V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-19T01:09:24Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
Nearly Optimal Policy Optimization with Stable at Any Time Guarantee [53.155554415415445]
citetshani 2020optimisticのポリシーベースのメソッドは、$tildeO(sqrtSAH3K + sqrtAH4K)$である。$S$は状態の数、$A$はアクションの数、$H$は地平線、$K$はエピソードの数、$sqrtSH$は情報理論の下限の$tildeOmega(sqrtSAH)と比べてギャップがある。
論文参考訳（メタデータ） (2021-12-21T01:54:17Z)
Agnostic Reinforcement Learning with Low-Rank MDPs and Rich Observations [79.66404989555566]
我々は、リッチな観測空間を持つより現実的な非依存的RLの設定と、近似的ポリシーを含まないような固定されたポリシーのクラス$Pi$を考える。我々は,MDPの階数$d$の誤差が有界な設定のためのアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-22T03:20:40Z)
Randomized Exploration for Reinforcement Learning with General Value Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文参考訳（メタデータ） (2021-06-15T02:23:07Z)
Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文参考訳（メタデータ） (2021-02-17T18:54:08Z)
Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文参考訳（メタデータ） (2020-05-21T17:36:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。