論文の概要: On All-Action Policy Gradients
- arxiv url: http://arxiv.org/abs/2210.13011v1
- Date: Mon, 24 Oct 2022 07:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:33:12.093204
- Title: On All-Action Policy Gradients
- Title(参考訳): All-Action Policy Gradientsについて
- Authors: Michal Nauman and Marek Cygan
- Abstract要約: 我々は、状態当たりの多くのアクションサンプル(全アクションSPG)による勾配ポリシーのばらつきを解析する。
本研究では,環境を操作せずに全動作サンプリングが可能な動的全動作モジュール(DAA)を提案する。
正準政治アルゴリズム (PPO) を用いてDAAを用いることで, サンプリング効率が向上し, ポリシリターンが向上することがわかった。
- 参考スコア(独自算出の注目度): 1.0562577666940498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we analyze the variance of stochastic policy gradient with
many action samples per state (all-action SPG). We decompose the variance of
SPG and derive an optimality condition for all-action SPG. The optimality
condition shows when all-action SPG should be preferred over single-action
counterpart and allows to determine a variance-minimizing sampling scheme in
SPG estimation. Furthermore, we propose dynamics-all-action (DAA) module, an
augmentation that allows for all-action sampling without manipulation of the
environment. DAA addresses the problems associated with using a Q-network for
all-action sampling and can be readily applied to any on-policy SPG algorithm.
We find that using DAA with a canonical on-policy algorithm (PPO) yields better
sample efficiency and higher policy returns on a variety of challenging
continuous action environments.
- Abstract(参考訳): 本稿では,各状態当たりのアクションサンプル(全アクションSPG)による確率的政策勾配のばらつきを解析する。
SPGの分散を分解し、全作用SPGの最適条件を導出する。
最適条件は、全作用 SPG が単作用よりも優先される場合を示し、SPG 推定における分散最小化サンプリングスキームを決定することができる。
さらに,環境を操作せずに全動作サンプリングが可能な動的全動作モジュール(DAA)を提案する。
DAAは全アクションサンプリングにQ-networkを使用する際の問題に対処し、任意のオンラインSPGアルゴリズムに容易に適用できる。
そこで本研究では,DAAをPPO (canonical on-policy algorithm) で使用することにより,サンプル効率が向上し,多様な継続的な行動環境において高いポリシリターンが得られることを示す。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Structured Estimation of Heterogeneous Time Series [5.102931012520635]
構造的に異質なプロセスをどのようにモデル化するかは、社会、健康、行動科学の基本的な問題である。
最近、Fisher et al. (2022) はマルチオブジェクトマルチ変数時系列を同時に推定するマルチVAR手法を導入した。
このアプローチは、多数の個人力学における定性的かつ定量的な相違がよく調整されているという点において、多目的時系列に対する多くの一般的なモデリング手法とは異なる。
我々はマルチVARフレームワークを拡張し、推定性能を大幅に改善する新しい適応重み付けスキームを含む。
論文 参考訳(メタデータ) (2023-11-15T02:39:13Z) - Acceleration of stochastic gradient descent with momentum by averaging:
finite-sample rates and asymptotic normality [7.793751573538388]
運動量による勾配降下(SGDM)は多くの機械学習や統計応用で広く利用されている。
強い凸条件下でSGDMの有限サンプル収束速度を解析する。
バッチサイズが大きいと、ミニバッチSGDMは、ミニバッチSGDよりも高速に、最適な値の近傍に収束することを示す。
論文 参考訳(メタデータ) (2023-05-28T08:49:24Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。