論文の概要: A Concentration Bound for LSPE($\lambda$)
- arxiv url: http://arxiv.org/abs/2111.02644v1
- Date: Thu, 4 Nov 2021 05:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 23:39:17.505293
- Title: A Concentration Bound for LSPE($\lambda$)
- Title(参考訳): lspe($\lambda$)に縛られた濃度
- Authors: Vivek S. Borkar, Siddharth Chandak, Harsh Dolhare
- Abstract要約: 政策評価のための一般的なLSPE($lambda$)アルゴリズムは、ある時点で高い確率性能を保証する濃度境界を導出するために再検討される。
- 参考スコア(独自算出の注目度): 0.5352699766206808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The popular LSPE($\lambda$) algorithm for policy evaluation is revisited to
derive a concentration bound that gives high probability performance guarantees
from some time on.
- Abstract(参考訳): 政策評価のための一般的なLSPE($\lambda$)アルゴリズムは、ある時点から高い確率性能を保証する濃度境界を導出するために再検討される。
関連論文リスト
- ICDPO: Effectively Borrowing Alignment Capability of Others via
In-context Direct Preference Optimization [24.55845271377532]
大規模な言語モデルは、安全なコンテンツの生成を保証するためにヒューマン・プライオリエンス・アライメントに依存している。
In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。
ICDPOは、上記インスタントスコアラによって推定された整列応答を生成し、最終性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T17:14:34Z) - A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement
Learning [35.13329809630571]
一般関数近似を用いたオフライン制約付きRLの新しいアルゴリズムであるPrimal-Dual-Critic Algorithm (PDCA)を提案する。
PDCAは批判者によって推定されるラグランジアン関数上の原始双対アルゴリズムを実行する。
PDCAがラグランジアン近傍のサドル点を見つけることは、制約されたRL問題に対してほぼ最適であることを示す。
論文 参考訳(メタデータ) (2023-06-13T14:50:03Z) - Performance Bounds for Policy-Based Average Reward Reinforcement
Learning Algorithms [11.013390624382259]
多くのポリシーベース強化学習(RL)アルゴリズムは、近似ポリシー反復(PI)のインスタンス化と見なすことができる。
平均報酬目標が有意義なパフォーマンス指標であるアプリケーションでは、割引された報酬の定式化がしばしば使用され、割引係数は1,$近くで、期待される地平線を非常に大きくするのと同等である。
本稿では、この開放的な問題を、平均逆 MDP に対する最初の有限時間誤差境界を求めることで解決し、政策評価や政策改善の誤差がゼロになるにつれて、その誤差が極限でゼロとなることを示す。
論文 参考訳(メタデータ) (2023-02-02T22:37:47Z) - Bandit Convex Optimisation Revisited: FTRL Achieves $\tilde{O}(t^{1/2})$
Regret [15.877673959068458]
本稿では,複数の関数評価を用いたカーネル推定器を,元のカーネル推定値と同等の期待値を持つサンプリングベース帯域推定器に容易に変換可能であることを示す。
このような帯域幅推定器を標準FTRLアルゴリズムにプラグインすると、逆時間変動凸損失関数に対して$tildeO(t1/2)$ regretを達成する帯域幅最適化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2023-02-01T10:37:34Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency [83.02999769628593]
強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
論文 参考訳(メタデータ) (2021-02-05T03:20:39Z) - Off-Policy Interval Estimation with Lipschitz Value Iteration [29.232245317776723]
一般の連続した環境下での政治外評価のための区間境界を求めるための正当な手法を提案する。
リプシッツ値の反復法を導入し、単調に間隔を縮める。
論文 参考訳(メタデータ) (2020-10-29T07:25:56Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。