論文の概要: Accelerated and instance-optimal policy evaluation with linear function
approximation
- arxiv url: http://arxiv.org/abs/2112.13109v1
- Date: Fri, 24 Dec 2021 17:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 12:40:27.450642
- Title: Accelerated and instance-optimal policy evaluation with linear function
approximation
- Title(参考訳): リニア関数近似による加速・インスタンス最適政策評価
- Authors: Tianjiao Li, Guanghui Lan and Ashwin Pananjady
- Abstract要約: 既存のアルゴリズムはこれらの下界の少なくとも1つと一致しない。
我々は,両下界を同時に一致させる高速時間差分アルゴリズムを開発し,インスタンス最適性という強い概念を実現する。
- 参考スコア(独自算出の注目度): 17.995515643150657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of policy evaluation with linear function approximation
and present efficient and practical algorithms that come with strong optimality
guarantees. We begin by proving lower bounds that establish baselines on both
the deterministic error and stochastic error in this problem. In particular, we
prove an oracle complexity lower bound on the deterministic error in an
instance-dependent norm associated with the stationary distribution of the
transition kernel, and use the local asymptotic minimax machinery to prove an
instance-dependent lower bound on the stochastic error in the i.i.d.
observation model. Existing algorithms fail to match at least one of these
lower bounds: To illustrate, we analyze a variance-reduced variant of temporal
difference learning, showing in particular that it fails to achieve the oracle
complexity lower bound. To remedy this issue, we develop an accelerated,
variance-reduced fast temporal difference algorithm (VRFTD) that simultaneously
matches both lower bounds and attains a strong notion of instance-optimality.
Finally, we extend the VRFTD algorithm to the setting with Markovian
observations, and provide instance-dependent convergence results that match
those in the i.i.d. setting up to a multiplicative factor that is proportional
to the mixing time of the chain. Our theoretical guarantees of optimality are
corroborated by numerical experiments.
- Abstract(参考訳): 本稿では,線形関数近似による政策評価の問題と,高い最適性を保証するアルゴリズムを提示する。
まず、この問題における決定的誤差と確率的誤差の両方に基づくベースラインを確立する下界の証明から始める。
特に,トランジションカーネルの定常分布に付随するインスタンス依存ノルムにおいて,決定的誤差に起因するオラクルの複雑性を低く証明し,局所漸近ミニマックス機構を用いて,確率的誤差に起因したインスタンス依存的な下界を観測モデルで証明する。
既存のアルゴリズムは、これらの下界の少なくとも1つと一致しない: 説明するために、時間差学習の分散還元型を分析し、特にオラクルの複雑性下界を達成することができないことを示す。
この問題に対処するため,我々は,下限と下限の両方を同時に一致させ,インスタンス最適化の強い概念を実現する,分散低減高速時間差アルゴリズム(vrftd)を開発した。
最後に、vrftdアルゴリズムをマルコフ観測による設定に拡張し、連鎖の混合時間に比例する乗算係数まで設定したi.i.d.の設定と一致するインスタンス依存収束結果を提供する。
最適性の理論的保証は数値実験によって裏付けられる。
関連論文リスト
- Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。
本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文 参考訳(メタデータ) (2023-10-22T12:37:25Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Convergence Rates of Two-Time-Scale Gradient Descent-Ascent Dynamics for
Solving Nonconvex Min-Max Problems [2.0305676256390934]
連立勾配降下指数アルゴリズムの連続時間変動の有限時間特性を特徴付ける。
連続時間アルゴリズムの挙動に関する結果は、離散時間アルゴリズムの収束特性を高めるために用いられる。
論文 参考訳(メタデータ) (2021-12-17T15:51:04Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - Provably Convergent Working Set Algorithm for Non-Convex Regularized
Regression [0.0]
本稿では、収束保証付き非正則正規化器のためのワーキングセットアルゴリズムを提案する。
その結果,ブロックコーディネートや勾配ソルバの完全解法と比較して高い利得を示した。
論文 参考訳(メタデータ) (2020-06-24T07:40:31Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。