論文の概要: Optimal variance-reduced stochastic approximation in Banach spaces
- arxiv url: http://arxiv.org/abs/2201.08518v1
- Date: Fri, 21 Jan 2022 02:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:34:16.774530
- Title: Optimal variance-reduced stochastic approximation in Banach spaces
- Title(参考訳): バナッハ空間における最適分散還元確率近似
- Authors: Wenlong Mou, Koulik Khamaru, Martin J. Wainwright, Peter L. Bartlett,
Michael I. Jordan
- Abstract要約: 可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
- 参考スコア(独自算出の注目度): 114.8734960258221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of estimating the fixed point of a contractive operator
defined on a separable Banach space. Focusing on a stochastic query model that
provides noisy evaluations of the operator, we analyze a variance-reduced
stochastic approximation scheme, and establish non-asymptotic bounds for both
the operator defect and the estimation error, measured in an arbitrary
semi-norm. In contrast to worst-case guarantees, our bounds are
instance-dependent, and achieve the local asymptotic minimax risk
non-asymptotically. For linear operators, contractivity can be relaxed to
multi-step contractivity, so that the theory can be applied to problems like
average reward policy evaluation problem in reinforcement learning. We
illustrate the theory via applications to stochastic shortest path problems,
two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning
for tabular Markov decision processes.
- Abstract(参考訳): 分離バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子のノイズ評価を提供する確率的問合せモデルに着目し,分散還元確率近似スキームを解析し,任意の半ノルムで測定した演算子欠陥と推定誤差の両方に対する非漸近境界を確立する。
最悪の場合の保証とは対照的に、私たちの境界はインスタンスに依存し、非漸近的に局所漸近的ミニマックスリスクを達成する。
線形作用素の場合、収縮性は多段階の収縮性に緩和され、強化学習における平均報酬政策評価問題のような問題にこの理論を適用することができる。
確率的最短経路問題や2人のゼロサムマルコフゲーム、および政策評価や表型マルコフ決定プロセスのq$-learningへの応用を通じて理論を説明する。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - A Local Convergence Theory for the Stochastic Gradient Descent Method in
Non-Convex Optimization With Non-isolated Local Minima [0.0]
非孤立ミニマは、未探索のままのユニークな挑戦を示す。
本稿では, 勾配降下法の非溶解大域ミニマへの局所収束について検討する。
論文 参考訳(メタデータ) (2022-03-21T13:33:37Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - Convergence Properties of Stochastic Hypergradients [38.64355126221992]
大規模データセットにおける低レベルの問題が経験的リスクである場合に重要となる過勾配の近似スキームについて検討する。
本研究では,理論解析を支援する数値実験を行い,実際にハイパーグラディエントを用いることの利点を示す。
論文 参考訳(メタデータ) (2020-11-13T20:50:36Z) - Sparse recovery by reduced variance stochastic approximation [5.672132510411465]
雑音観測によるスパース信号回復問題に対する反復2次最適化ルーチンの適用について論じる。
本稿では,Median-of-Meansのような手法を用いて,対応するソリューションの信頼性を向上する方法について述べる。
論文 参考訳(メタデータ) (2020-06-11T12:31:20Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。