論文の概要: Empirical Policy Evaluation with Supergraphs
- arxiv url: http://arxiv.org/abs/2002.07905v1
- Date: Tue, 18 Feb 2020 22:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 19:49:56.702824
- Title: Empirical Policy Evaluation with Supergraphs
- Title(参考訳): スーパーグラフによる実証的政策評価
- Authors: Daniel Vial, Vijay Subramanian
- Abstract要約: 我々は、強化学習における経験的政策評価問題に対するアルゴリズムを考案し、分析する。
我々のアルゴリズムは、全ての状態から前進する前進アプローチとは対照的に、高価値な状態を見つけるために、高コスト状態から後方へ探索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We devise and analyze algorithms for the empirical policy evaluation problem
in reinforcement learning. Our algorithms explore backward from high-cost
states to find high-value ones, in contrast to forward approaches that work
forward from all states. While several papers have demonstrated the utility of
backward exploration empirically, we conduct rigorous analyses which show that
our algorithms can reduce average-case sample complexity from $O(S \log S)$ to
as low as $O(\log S)$.
- Abstract(参考訳): 強化学習における経験的政策評価問題に対するアルゴリズムの考案と解析を行う。
我々のアルゴリズムは、すべての状態から前進する前方アプローチとは対照的に、高コスト状態から後方に探索し、高価値状態を見つける。
実験的に後方探索の有用性を実証した論文がいくつかあるが、我々のアルゴリズムは平均ケースサンプルの複雑さを$o(s \log s)$から$o(\log s)$まで低減できることを示す厳密な分析を行っている。
関連論文リスト
- Finite-Sample Analysis of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning [0.0]
政策アルゴリズムの収束率に関する新しい結果を示す。
このアルゴリズムは、$tildeO(SAK3log3frac1delta)$ sampled episodesの後に最適なポリシーを返す。
論文 参考訳(メタデータ) (2024-10-03T21:11:29Z) - High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。
我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。
本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:29:32Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Beyond No Regret: Instance-Dependent PAC Reinforcement Learning [29.552894877883883]
低後悔を達成し、インスタンス最適率で$epsilon$-optimal Policyを特定できるというトレードオフが存在することを示す。
本稿では,このサンプル複雑性を実現する新しい計画ベースアルゴリズムの提案と解析を行う。
我々のアルゴリズムは最小限の最適値であり、いくつかの例では、インスタンス依存のサンプル複雑性は最悪のケース境界よりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-08-05T16:34:17Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Dictionary and prior learning with unrolled algorithms for unsupervised
inverse problems [12.54744464424354]
本稿では,二段階問題として,劣化測定による辞書と事前学習について検討する。
合成と解析の近似定式化を解くために, アンロールアルゴリズムを利用する。
論文 参考訳(メタデータ) (2021-06-11T12:21:26Z) - Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm [4.932130498861987]
重要度サンプリングに基づく自然アクタ-クリティック(nac)アルゴリズムのオフポリシー変種に対する有限サンプル収束保証を提供する。
このアルゴリズムは、ステップの適切な選択の下で$mathcalo(epsilon-3log2(1/epsilon)$のサンプル複雑性を持つ大域的最適ポリシーに収束する。
論文 参考訳(メタデータ) (2021-02-18T13:22:59Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。