論文の概要: Time Discretization-Invariant Safe Action Repetition for Policy Gradient
Methods
- arxiv url: http://arxiv.org/abs/2111.03941v1
- Date: Sat, 6 Nov 2021 19:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 14:55:55.432136
- Title: Time Discretization-Invariant Safe Action Repetition for Policy Gradient
Methods
- Title(参考訳): ポリシー勾配法における時間離散化不変セーフアクション反復
- Authors: Seohong Park, Jaekyeom Kim, Gunhee Kim
- Abstract要約: 政策勾配(PG)法に対する$delta$-invariantアルゴリズムを提案する。
我々の手法は$delta$-invariant だけでなく、強靭性も示しており、以前の$delta$-invariant アプローチよりも優れている。
- 参考スコア(独自算出の注目度): 43.49494338665518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, continuous time is often discretized by a time
scale $\delta$, to which the resulting performance is known to be highly
sensitive. In this work, we seek to find a $\delta$-invariant algorithm for
policy gradient (PG) methods, which performs well regardless of the value of
$\delta$. We first identify the underlying reasons that cause PG methods to
fail as $\delta \to 0$, proving that the variance of the PG estimator can
diverge to infinity in stochastic environments under a certain assumption of
stochasticity. While durative actions or action repetition can be employed to
have $\delta$-invariance, previous action repetition methods cannot immediately
react to unexpected situations in stochastic environments. We thus propose a
novel $\delta$-invariant method named Safe Action Repetition (SAR) applicable
to any existing PG algorithm. SAR can handle the stochasticity of environments
by adaptively reacting to changes in states during action repetition. We
empirically show that our method is not only $\delta$-invariant but also robust
to stochasticity, outperforming previous $\delta$-invariant approaches on eight
MuJoCo environments with both deterministic and stochastic settings. Our code
is available at https://vision.snu.ac.kr/projects/sar.
- Abstract(参考訳): 強化学習では、連続時間はしばしば時間スケール$\delta$で識別され、その結果のパフォーマンスは極めて敏感であることが知られている。
本研究では,$\delta$の値によらずよく機能する政策勾配法(pg法)に対して,$\delta$-invariantアルゴリズムを求める。
まず、PG法が失敗する原因を$\delta \to 0$と同定し、ある確率性の仮定の下でPG推定子の分散が確率環境における無限大に発散できることを証明した。
デュラティブなアクションやアクションの繰り返しは$\delta$-invarianceを持つために使われるが、従来のアクションの反復法は確率的環境における予期せぬ状況に即座に反応することができない。
そこで我々は,既存のPGアルゴリズムに適用可能な新しい$\delta$-invariantメソッドであるSafe Action Repetition (SAR)を提案する。
SARは行動反復中の状態の変化に適応的に反応することで環境の確率性を扱うことができる。
我々は経験的に、この手法は$\delta$-invariant であるだけでなく、確率性にも頑健であることを示し、8つのmujoco環境におけるこれまでの$\delta$-invariant アプローチよりも優れていることを示した。
私たちのコードはhttps://vision.snu.ac.kr/projects/sarで利用可能です。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Discounted Thompson Sampling for Non-Stationary Bandit Problems [13.656518163592349]
NS-MAB(Non-stationary multi-armed bandit)問題も最近注目されている。
非定常条件の両方に対処するため,ガウシアン先行値を用いたディスカウントトンプソンサンプリング(DS-TS)を提案する。
我々のアルゴリズムは、トンプソンサンプリングに割引係数を組み込むことにより、変化に順応的に適応する。
論文 参考訳(メタデータ) (2023-05-18T05:29:52Z) - Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Tractable Optimality in Episodic Latent MABs [75.17357040707347]
我々は、エージェントが時間ステップ$H$のエピソードのために環境と対話する、M$遅延コンテキストを持つマルチアームバンディット問題を考える。
エピソードの長さによっては、学習者は遅れた文脈を正確に見積もることができないかもしれない。
我々は、$O(textttpoly(A) + textttpoly(M,H)min(M,H))$インタラクションを用いて、ほぼ最適なポリシーを確実に学習する手順を設計する。
論文 参考訳(メタデータ) (2022-10-05T22:53:46Z) - Simultaneously Learning Stochastic and Adversarial Bandits under the
Position-Based Model [9.945948163150874]
本研究は, 位置ベースモデルに基づくオンライン学習における課題のランク付けに関する研究である。
提案アルゴリズムは,対向環境において$O(logT)$後悔を同時に達成し,対向環境において$O(msqrtnT)$後悔を同時に達成する。
実験により,本アルゴリズムは,既存手法と競合する環境下で同時に学習できることが確認された。
論文 参考訳(メタデータ) (2022-07-12T10:00:14Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。