論文の概要: Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical
Comparison
- arxiv url: http://arxiv.org/abs/2003.03924v4
- Date: Mon, 24 Aug 2020 04:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 07:39:58.186266
- Title: Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical
Comparison
- Title(参考訳): バッチ強化学習のためのq*近似スキーム:理論的比較
- Authors: Tengyang Xie, Nan Jiang
- Abstract要約: バッチ強化学習において、$Qstar$を近似する2つのアルゴリズムの性能保証を証明する。
アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」困難を克服するために、新しく明確な重要度重み付け補正を使用する。
- 参考スコア(独自算出の注目度): 17.692408242465763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We prove performance guarantees of two algorithms for approximating $Q^\star$
in batch reinforcement learning. Compared to classical iterative methods such
as Fitted Q-Iteration---whose performance loss incurs quadratic dependence on
horizon---these methods estimate (some forms of) the Bellman error and enjoy
linear-in-horizon error propagation, a property established for the first time
for algorithms that rely solely on batch data and output stationary policies.
One of the algorithms uses a novel and explicit importance-weighting correction
to overcome the infamous "double sampling" difficulty in Bellman error
estimation, and does not use any squared losses. Our analyses reveal its
distinct characteristics and potential advantages compared to classical
algorithms.
- Abstract(参考訳): バッチ強化学習における$q^\star$を近似する2つのアルゴリズムの性能保証を実証する。
フィルタQ-イテレーションのような古典的反復手法と比較して、性能損失は地平線に二次的依存を生じさせる - それらの手法はベルマン誤差を推定し、線形-水平誤差の伝播を楽しむ。
アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」の難しさを克服するために、新しく明確な重要度重み付け補正を用いており、正方形の損失は一切使わない。
従来のアルゴリズムと比較して,その特徴と潜在的な利点を明らかにする。
関連論文リスト
- Bregman-divergence-based Arimoto-Blahut algorithm [53.64687146666141]
本稿では,Arimoto-BlahutアルゴリズムをBregman-Diversergenceシステム上で定義された一般関数に一般化する。
本稿では,古典的および量子速度歪み理論に適用可能な凸最適化自由アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-10T06:16:24Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - A Log-linear Gradient Descent Algorithm for Unbalanced Binary
Classification using the All Pairs Squared Hinge Loss [0.0]
本稿では,2乗損失と2乗損失の関数表現を新たに提案し,線形時間あるいは対数線形時間で勾配を計算するアルゴリズムを提案する。
我々の新しいアルゴリズムは、以前のアルゴリズムよりも不均衡なデータセットのAUC値が高く、以前よりも大きなバッチサイズを利用できる。
論文 参考訳(メタデータ) (2023-02-21T23:35:00Z) - Dictionary and prior learning with unrolled algorithms for unsupervised
inverse problems [12.54744464424354]
本稿では,二段階問題として,劣化測定による辞書と事前学習について検討する。
合成と解析の近似定式化を解くために, アンロールアルゴリズムを利用する。
論文 参考訳(メタデータ) (2021-06-11T12:21:26Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - Learning and Planning in Average-Reward Markov Decision Processes [15.586087060535398]
我々は,平均回帰MDPの学習と計画アルゴリズムを導入する。
全てのアルゴリズムは,平均報酬の推定値を更新する際に,従来の誤差よりも時間差誤差を用いている。
論文 参考訳(メタデータ) (2020-06-29T19:03:24Z) - SONIA: A Symmetric Blockwise Truncated Optimization Algorithm [2.9923891863939938]
本研究は, 経験的リスクに対する新しいアルゴリズムを提案する。
このアルゴリズムは、一部分空間における二階探索型更新を計算し、1階探索法と2階探索法の間のギャップを埋める。
論文 参考訳(メタデータ) (2020-06-06T19:28:14Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。