Fugu-MT 論文翻訳(概要): Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical Comparison

論文の概要: Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical Comparison

arxiv url: http://arxiv.org/abs/2003.03924v4
Date: Mon, 24 Aug 2020 04:09:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 07:39:58.186266
Title: Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical Comparison
Title（参考訳）: バッチ強化学習のためのq*近似スキーム:理論的比較
Authors: Tengyang Xie, Nan Jiang
Abstract要約: バッチ強化学習において、$Qstar$を近似する2つのアルゴリズムの性能保証を証明する。アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」困難を克服するために、新しく明確な重要度重み付け補正を使用する。
参考スコア（独自算出の注目度）: 17.692408242465763
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We prove performance guarantees of two algorithms for approximating $Q^\star$ in batch reinforcement learning. Compared to classical iterative methods such as Fitted Q-Iteration---whose performance loss incurs quadratic dependence on horizon---these methods estimate (some forms of) the Bellman error and enjoy linear-in-horizon error propagation, a property established for the first time for algorithms that rely solely on batch data and output stationary policies. One of the algorithms uses a novel and explicit importance-weighting correction to overcome the infamous "double sampling" difficulty in Bellman error estimation, and does not use any squared losses. Our analyses reveal its distinct characteristics and potential advantages compared to classical algorithms.
Abstract（参考訳）: バッチ強化学習における$q^\star$を近似する2つのアルゴリズムの性能保証を実証する。フィルタQ-イテレーションのような古典的反復手法と比較して、性能損失は地平線に二次的依存を生じさせる - それらの手法はベルマン誤差を推定し、線形-水平誤差の伝播を楽しむ。アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」の難しさを克服するために、新しく明確な重要度重み付け補正を用いており、正方形の損失は一切使わない。従来のアルゴリズムと比較して,その特徴と潜在的な利点を明らかにする。

関連論文リスト

Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文参考訳（メタデータ） (2024-11-29T05:29:47Z)
Bregman-divergence-based Arimoto-Blahut algorithm [53.64687146666141]
本稿では,Arimoto-BlahutアルゴリズムをBregman-Diversergenceシステム上で定義された一般関数に一般化する。本稿では,古典的および量子速度歪み理論に適用可能な凸最適化自由アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-10T06:16:24Z)
Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文参考訳（メタデータ） (2024-01-26T20:45:40Z)
Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文参考訳（メタデータ） (2023-12-20T09:33:16Z)
A Log-linear Gradient Descent Algorithm for Unbalanced Binary Classification using the All Pairs Squared Hinge Loss [0.0]
本稿では,2乗損失と2乗損失の関数表現を新たに提案し,線形時間あるいは対数線形時間で勾配を計算するアルゴリズムを提案する。我々の新しいアルゴリズムは、以前のアルゴリズムよりも不均衡なデータセットのAUC値が高く、以前よりも大きなバッチサイズを利用できる。
論文参考訳（メタデータ） (2023-02-21T23:35:00Z)
Dictionary and prior learning with unrolled algorithms for unsupervised inverse problems [12.54744464424354]
本稿では,二段階問題として,劣化測定による辞書と事前学習について検討する。合成と解析の近似定式化を解くために, アンロールアルゴリズムを利用する。
論文参考訳（メタデータ） (2021-06-11T12:21:26Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文参考訳（メタデータ） (2020-07-01T18:43:32Z)
Learning and Planning in Average-Reward Markov Decision Processes [15.586087060535398]
我々は,平均回帰MDPの学習と計画アルゴリズムを導入する。全てのアルゴリズムは,平均報酬の推定値を更新する際に,従来の誤差よりも時間差誤差を用いている。
論文参考訳（メタデータ） (2020-06-29T19:03:24Z)
SONIA: A Symmetric Blockwise Truncated Optimization Algorithm [2.9923891863939938]
本研究は, 経験的リスクに対する新しいアルゴリズムを提案する。このアルゴリズムは、一部分空間における二階探索型更新を計算し、1階探索法と2階探索法の間のギャップを埋める。
論文参考訳（メタデータ） (2020-06-06T19:28:14Z)
Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文参考訳（メタデータ） (2020-05-18T08:41:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。