論文の概要: On the Chattering of SARSA with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2202.06828v1
- Date: Mon, 14 Feb 2022 16:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:09:41.892686
- Title: On the Chattering of SARSA with Linear Function Approximation
- Title(参考訳): 線形関数近似によるsarsaのチャタリングについて
- Authors: Shangtong Zhang, Remi Tachet, Romain Laroche
- Abstract要約: SARSAは、強化学習のための古典的なオンライン制御アルゴリズムである。
SARSA が有界領域にどれだけ早く収束するかを示す。
線形SARSAの振舞いを新しい制度として特徴づける。
- 参考スコア(独自算出の注目度): 28.48689596152752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SARSA, a classical on-policy control algorithm for reinforcement learning, is
known to chatter when combined with linear function approximation: SARSA does
not diverge but oscillates in a bounded region. However, little is know about
how fast SARSA converges to that region and how large the region is. In this
paper, we make progress towards solving this open problem by showing the
convergence rate of projected SARSA to a bounded region. Importantly, the
region is much smaller than the ball used for projection provided that the the
magnitude of the reward is not too large. Our analysis applies to expected
SARSA as well as SARSA($\lambda$). Existing works regarding the convergence of
linear SARSA to a fixed point all require the Lipschitz constant of SARSA's
policy improvement operator to be sufficiently small; our analysis instead
applies to arbitrary Lipschitz constants and thus characterizes the behavior of
linear SARSA for a new regime.
- Abstract(参考訳): 強化学習のための古典的オンライン制御アルゴリズムであるSARSAは、線形関数近似と組み合わせることで、おしゃべりとして知られている: SARSAは分岐せず、有界領域で振動する。
しかし、SARSAがその領域にどの程度の速度で収束し、その領域がどのくらい大きいかは、ほとんど分かっていない。
本稿では,有界領域への射影SARSAの収束率を示すことにより,この問題の解決に向けて前進する。
重要なのは、報酬の規模がそれほど大きくないことから、投射に使用されるボールよりもはるかに小さいことである。
我々の分析は、期待されているSARSAとSARSA($\lambda$)にも当てはまる。
線形 SARSA の固定点への収束に関する既存の研究は、すべて SARSA のポリシー改善作用素のリプシッツ定数を十分に小さくする必要があるが、我々の分析は代わりに任意のリプシッツ定数に適用し、新しい状態に対する線形 SARSA の振舞いを特徴づける。
関連論文リスト
- Convergence of SARSA with linear function approximation: The random
horizon case [0.0]
SARSAと線形関数近似を組み合わせることで、無限水平方向割引マルコフ決定問題(MDP)に収束することが示されている。
無限地平面割引 MDP に対する以前の結果と同様に、挙動ポリシーが線型関数近似の重みベクトルに対して$varepsilon$-soft かつ Lipschitz 連続であるなら、そのアルゴリズムはランダム地平面 MDP を考える際に確率 1 と収束することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:51:06Z) - Efficiently Computing Local Lipschitz Constants of Neural Networks via
Bound Propagation [79.13041340708395]
リプシッツ定数は、堅牢性、公正性、一般化など、ニューラルネットワークの多くの性質と結びついている。
既存のリプシッツ定数の計算法は、相対的に緩い上界を生成するか、小さなネットワークに制限される。
ニューラルネットワークの局所リプシッツ定数$ell_infty$をクラーク・ヤコビアンのノルムを強く上向きに上向きに計算する効率的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-13T22:23:22Z) - Active Nearest Neighbor Regression Through Delaunay Refinement [79.93030583257597]
近接回帰に基づく能動関数近似アルゴリズムを提案する。
我々のActive Nearest Neighbor Regressor (ANNR) は計算幾何学の Voronoi-Delaunay フレームワークに頼り、空間を一定の関数値のセルに分割する。
論文 参考訳(メタデータ) (2022-06-16T10:24:03Z) - Composite Spatial Monte Carlo Integration Based on Generalized Least
Squares [0.0]
空間モンテカルロ積分 (SMCI) はサンプリングに基づく近似である。
複数のSMCI推定器を組み合わせた新しい有効手法を提案する。
その結果,提案手法は逆イジング問題(ボルツマン機械学習)に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-04-07T06:35:13Z) - Chordal Sparsity for Lipschitz Constant Estimation of Deep Neural
Networks [77.82638674792292]
ニューラルネットワークのリプシッツ定数は、画像分類の堅牢性、コントローラ設計の安全性、トレーニングデータを超えた一般化性を保証する。
リプシッツ定数の計算はNPハードであるため、リプシッツ定数を推定する手法はスケーラビリティと精度のトレードオフをナビゲートする必要がある。
本研究では,LipSDPと呼ばれる半定値プログラミング手法のスケーラビリティフロンティアを大幅に推し進め,精度の損失をゼロにする。
論文 参考訳(メタデータ) (2022-04-02T11:57:52Z) - Semantic Segmentation by Early Region Proxy [53.594035639400616]
本稿では,学習可能な領域のテッセルレーションとしてイメージを解釈することから始まる,新規で効率的なモデリングについて述べる。
領域のコンテキストをモデル化するために,Transformerを用いてシーケンス・ツー・シーケンス方式で領域を符号化する。
現在、符号化された領域埋め込みの上に、領域ごとのセマンティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-03-26T10:48:32Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - A PAC-Bayesian Analysis of Distance-Based Classifiers: Why
Nearest-Neighbour works! [12.317405551932195]
K-nearest-neighbour分類器(K-NN)の一般化誤差に対するPAC-Bayesian境界
我々は、カーネル展開における係数に関する事前測度と、カーネル空間における重みベクトルに関する誘導測度との関係を確立する。
論文 参考訳(メタデータ) (2021-09-28T17:35:57Z) - Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex
Envelopes [40.31139355952393]
一般化エンベロープを用いて滑らかなリャプノフ函数を構築し、そのリャプノフ函数に対してSAの反復体が負のドリフトを持つことを示す。
特に、政治以外のTD学習において、Vトレースアルゴリズムの最初の既知収束率を確立するためにこれを用いる。
また、TD学習を現場で研究し、既存の最先端の成果を$Q$ラーニングで回収する。
論文 参考訳(メタデータ) (2020-02-03T16:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。