論文の概要: Mixed Policy Gradient: off-policy reinforcement learning driven jointly
by data and model
- arxiv url: http://arxiv.org/abs/2102.11513v2
- Date: Sat, 24 Feb 2024 15:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 01:04:37.342423
- Title: Mixed Policy Gradient: off-policy reinforcement learning driven jointly
by data and model
- Title(参考訳): 混合政策勾配:データとモデルによって駆動されるオフポリシー強化学習
- Authors: Yang Guan, Jingliang Duan, Shengbo Eben Li, Jie Li, Jianyu Chen, Bo
Cheng
- Abstract要約: 強化学習(RL)はシーケンシャルな意思決定において大きな可能性を秘めている。
メインストリームのRLアルゴリズムはデータ駆動であり、通常、モデル駆動の手法に比べて性能は向上するが、収束は遅くなる。
本稿では,政策勾配(PG)における経験的データと遷移モデルを融合したMPGアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 32.61834127169759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) shows great potential in sequential
decision-making. At present, mainstream RL algorithms are data-driven, which
usually yield better asymptotic performance but much slower convergence
compared with model-driven methods. This paper proposes mixed policy gradient
(MPG) algorithm, which fuses the empirical data and the transition model in
policy gradient (PG) to accelerate convergence without performance degradation.
Formally, MPG is constructed as a weighted average of the data-driven and
model-driven PGs, where the former is the derivative of the learned Q-value
function, and the latter is that of the model-predictive return. To guide the
weight design, we analyze and compare the upper bound of each PG error. Relying
on that, a rule-based method is employed to heuristically adjust the weights.
In particular, to get a better PG, the weight of the data-driven PG is designed
to grow along the learning process while the other to decrease. Simulation
results show that the MPG method achieves the best asymptotic performance and
convergence speed compared with other baseline algorithms.
- Abstract(参考訳): 強化学習(RL)は、逐次意思決定において大きな可能性を示す。
現在では、主流のRLアルゴリズムはデータ駆動であり、一般的には漸近的性能が向上するが、モデル駆動法に比べて収束が遅い。
本稿では,政策勾配(PG)における経験的データと遷移モデルを融合させて,性能劣化を伴わない収束を高速化するMPGアルゴリズムを提案する。
形式的には、mpgはデータ駆動型およびモデル駆動型pgsの重み付け平均として構成され、前者は学習されたq値関数の導出であり、後者はモデル予測型の戻り値である。
重み設計の指針として,各PG誤差の上限値の解析と比較を行う。
それに基づいて、重みをヒューリスティックに調整するルールベースの手法が用いられる。
特に、より優れたPGを得るために、データ駆動PGの重みは学習プロセスに沿って成長し、他方は減少するように設計されている。
シミュレーションの結果,mpg法は,他のベースラインアルゴリズムと比較して,最高漸近性能と収束速度を達成した。
関連論文リスト
- Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Adaptive Latent Factor Analysis via Generalized Momentum-Incorporated
Particle Swarm Optimization [6.2303427193075755]
勾配降下(SGD)アルゴリズムは,高次元および不完全行列上に潜在因子分析(LFA)モデルを構築するための効果的な学習戦略である。
粒子群最適化(PSO)アルゴリズムは、SGDベースのLFAモデルのハイパーパラメータ(学習率と正規化係数、自己適応)を作成するために一般的に用いられる。
本論文は, 各粒子の進化過程に, 早期収束を避けるために, より歴史的情報を取り入れたものである。
論文 参考訳(メタデータ) (2022-08-04T03:15:07Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Reinforcement Learning from Demonstrations by Novel Interactive Expert
and Application to Automatic Berthing Control Systems for Unmanned Surface
Vessel [12.453219390225428]
RLfD(Reinforcement Learning from Demonstration)の2つの新しい実践的手法を開発し,無人表面容器の自動バーシング制御システムに適用した。
The new expert data generation method, called Model Predictive Based Expert (MPBE) was developed to provide high quality supervision data for RLfD algorithm。
また,MP-DDPGに基づく新たなRLfDアルゴリズムであるSelf-Guided Actor-Critic (SGAC)が存在する。
論文 参考訳(メタデータ) (2022-02-23T06:45:59Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Modeling Stochastic Microscopic Traffic Behaviors: a Physics Regularized
Gaussian Process Approach [1.6242924916178285]
本研究では,実世界のランダム性を捉え,誤差を計測できる微視的交通モデルを提案する。
提案フレームワークの特長の一つは,自動車追従行動と車線変更行動の両方を1つのモデルで捉える能力である。
論文 参考訳(メタデータ) (2020-07-17T06:03:32Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。