論文の概要: Low-rank State-action Value-function Approximation
- arxiv url: http://arxiv.org/abs/2104.08805v1
- Date: Sun, 18 Apr 2021 10:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 06:48:18.674159
- Title: Low-rank State-action Value-function Approximation
- Title(参考訳): 低ランク状態作用値関数近似
- Authors: Sergio Rozada, Victor Tenorio, and Antonio G. Marques
- Abstract要約: いくつかの高次元状態問題は、本質的な低ランク構造によってよく近似できる。
本稿では,$Q(s, a)$行列の低ランク分解を推定するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.026561518386025
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Value functions are central to Dynamic Programming and Reinforcement Learning
but their exact estimation suffers from the curse of dimensionality,
challenging the development of practical value-function (VF) estimation
algorithms. Several approaches have been proposed to overcome this issue, from
non-parametric schemes that aggregate states or actions to parametric
approximations of state and action VFs via, e.g., linear estimators or deep
neural networks. Relevantly, several high-dimensional state problems can be
well-approximated by an intrinsic low-rank structure. Motivated by this and
leveraging results from low-rank optimization, this paper proposes different
stochastic algorithms to estimate a low-rank factorization of the $Q(s, a)$
matrix. This is a non-parametric alternative to VF approximation that
dramatically reduces the computational and sample complexities relative to
classical $Q$-learning methods that estimate $Q(s,a)$ separately for each
state-action pair.
- Abstract(参考訳): 価値関数は動的プログラミングと強化学習の中心であるが、その正確な見積もりは次元性の呪いに悩まされ、実用価値関数(VF)推定アルゴリズムの開発に挑戦する。
この問題を解決するために、状態やアクションを集約する非パラメトリックスキームから、線形推定器やディープニューラルネットワークなどを通じて状態やアクションVFのパラメトリック近似まで、いくつかのアプローチが提案されている。
関連して、いくつかの高次元状態問題は内在的な低ランク構造によって近似することができる。
この結果に動機付けられ、低ランク最適化の結果を活用するため、本論文では、$q(s, a)$行列の低ランク分解を推定する様々な確率的アルゴリズムを提案する。
これはVF近似の非パラメトリックな代替であり、各状態-作用対に対して$Q(s,a)$を別々に見積もる古典的な$Q$学習法と比較して計算とサンプルの複雑さを劇的に減少させる。
関連論文リスト
- Eliminating Ratio Bias for Gradient-based Simulated Parameter Estimation [0.7673339435080445]
本稿では、可能性関数が解析的に利用できないモデルにおけるパラメータキャリブレーションの課題に対処する。
本稿では,最大推定と後続密度推定の両問題において,比バイアスの問題に対処するマルチタイムスケールを応用した勾配に基づくシミュレーションパラメータ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - A framework for bilevel optimization that enables stochastic and global
variance reduction algorithms [17.12280360174073]
双レベル最適化は、他の関数のarg最小値を含む値関数を最小化する問題である。
本稿では, 内部問題の解, 線形系の解, 主変数を同時に発展させる新しい枠組みを提案する。
我々のフレームワークにおけるSAGAアルゴリズムの適応であるSABAは$O(frac1T)$収束率を持ち、Polyak-Lojasciewicz仮定の下で線形収束を達成することを示した。
論文 参考訳(メタデータ) (2022-01-31T18:17:25Z) - Tensor and Matrix Low-Rank Value-Function Approximation in Reinforcement Learning [11.317136648551536]
値関数近似は強化学習(RL)の中心的な問題である
本稿では、低ランクアルゴリズムを用いてVF行列をオンラインおよびモデルフリーで推定する、擬似非パラメトリック手法を提案する。
VFは多次元である傾向があるため、従来のVF行列表現をテンソル表現に置き換え、PARAFAC分解を用いてオンラインモデルフリーテンソル低ランクアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-01-21T00:13:54Z) - Tractable and Near-Optimal Adversarial Algorithms for Robust Estimation
in Contaminated Gaussian Models [1.609950046042424]
ハマーの汚染されたガウスモデルの下での位置と分散行列の同時推定の問題を考える。
まず,非パラメトリック判別器を用いた生成逆数法に対応する最小$f$-divergence推定法について検討した。
ネスト最適化により実装可能な,単純なスプライン判別器を用いたトラクタブル逆数アルゴリズムを開発した。
提案手法は,$f$-divergenceと使用したペナルティに応じて,最小値の最適値またはほぼ最適値を達成する。
論文 参考訳(メタデータ) (2021-12-24T02:46:51Z) - Selective Multiple Power Iteration: from Tensor PCA to gradient-based
exploration of landscapes [7.648784748888189]
Selective Multiple Power Iterations (SMPI) はスパイクを回復する重要な問題に対処する新しいアルゴリズムである。
これらの予期せぬ性能は、ノイズが信号の回復に重要な役割を果たす強力なメカニズムに起因していることを示す。
これらの結果は、実用的および理論的応用の両方に強い影響を与える可能性がある。
論文 参考訳(メタデータ) (2021-12-23T01:46:41Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。