論文の概要: On Many-Actions Policy Gradient
- arxiv url: http://arxiv.org/abs/2210.13011v4
- Date: Thu, 11 May 2023 10:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:38:23.558107
- Title: On Many-Actions Policy Gradient
- Title(参考訳): 多行動政策のグラディエントについて
- Authors: Michal Nauman and Marek Cygan
- Abstract要約: 本研究では,政策勾配 (SPG) の変動について検討した。
我々は多作用最適性条件を導出し、多作用 SPG が比例的に延長された単作用剤と比較して低分散を生じるかどうかを決定する。
SPGの文脈における多行動サンプリングに動的モデルを活用するモデルベース多行動(MBMA)を提案する。
- 参考スコア(独自算出の注目度): 1.0562577666940498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the variance of stochastic policy gradients (SPGs) with many action
samples per state. We derive a many-actions optimality condition, which
determines when many-actions SPG yields lower variance as compared to a
single-action agent with proportionally extended trajectory. We propose
Model-Based Many-Actions (MBMA), an approach leveraging dynamics models for
many-actions sampling in the context of SPG. MBMA addresses issues associated
with existing implementations of many-actions SPG and yields lower bias and
comparable variance to SPG estimated from states in model-simulated rollouts.
We find that MBMA bias and variance structure matches that predicted by theory.
As a result, MBMA achieves improved sample efficiency and higher returns on a
range of continuous action environments as compared to model-free,
many-actions, and model-based on-policy SPG baselines.
- Abstract(参考訳): 確率的政策勾配 (SPGs) と状態毎のアクションサンプルのばらつきについて検討した。
我々は,多作用のspgが分散を生じさせる時期を決定する多作用最適条件を,比例伸長軌道を持つ単作用剤と比較して導出する。
SPGの文脈における多行動サンプリングに動的モデルを活用するモデルベース多行動(MBMA)を提案する。
MBMAは、マルチアクションSPGの既存の実装に関連する問題に対処し、モデルシミュレーションロールアウトの状態から推定される低いバイアスとSPGに匹敵する分散をもたらす。
MBMAバイアスと分散構造は理論によって予測されるものと一致している。
その結果, MBMAはモデルフリー, 多アクション, モデルベースSPGベースラインと比較して, サンプル効率の向上と, 一連の連続行動環境のリターンの向上を実現している。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Structured Estimation of Heterogeneous Time Series [5.102931012520635]
構造的に異質なプロセスをどのようにモデル化するかは、社会、健康、行動科学の基本的な問題である。
最近、Fisher et al. (2022) はマルチオブジェクトマルチ変数時系列を同時に推定するマルチVAR手法を導入した。
このアプローチは、多数の個人力学における定性的かつ定量的な相違がよく調整されているという点において、多目的時系列に対する多くの一般的なモデリング手法とは異なる。
我々はマルチVARフレームワークを拡張し、推定性能を大幅に改善する新しい適応重み付けスキームを含む。
論文 参考訳(メタデータ) (2023-11-15T02:39:13Z) - Acceleration of stochastic gradient descent with momentum by averaging:
finite-sample rates and asymptotic normality [7.793751573538388]
運動量による勾配降下(SGDM)は多くの機械学習や統計応用で広く利用されている。
強い凸条件下でSGDMの有限サンプル収束速度を解析する。
バッチサイズが大きいと、ミニバッチSGDMは、ミニバッチSGDよりも高速に、最適な値の近傍に収束することを示す。
論文 参考訳(メタデータ) (2023-05-28T08:49:24Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。