論文の概要: Stabilizing Policy Gradients for Stochastic Differential Equations via
Consistency with Perturbation Process
- arxiv url: http://arxiv.org/abs/2403.04154v1
- Date: Thu, 7 Mar 2024 02:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:21:38.323957
- Title: Stabilizing Policy Gradients for Stochastic Differential Equations via
Consistency with Perturbation Process
- Title(参考訳): 摂動過程との整合性による確率微分方程式の安定化
- Authors: Xiangxin Zhou, Liang Wang, Yichi Zhou
- Abstract要約: 我々は、ディープニューラルネットワークパラメータ化微分方程式(SDE)の最適化に焦点をあてる。
我々は、SDEが関連する摂動過程と整合するように制約することを提案する。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択する。
- 参考スコア(独自算出の注目度): 12.374297377958413
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Considering generating samples with high rewards, we focus on optimizing deep
neural networks parameterized stochastic differential equations (SDEs), the
advanced generative models with high expressiveness, with policy gradient, the
leading algorithm in reinforcement learning. Nevertheless, when applying policy
gradients to SDEs, since the policy gradient is estimated on a finite set of
trajectories, it can be ill-defined, and the policy behavior in data-scarce
regions may be uncontrolled. This challenge compromises the stability of policy
gradients and negatively impacts sample complexity. To address these issues, we
propose constraining the SDE to be consistent with its associated perturbation
process. Since the perturbation process covers the entire space and is easy to
sample, we can mitigate the aforementioned problems. Our framework offers a
general approach allowing for a versatile selection of policy gradient methods
to effectively and efficiently train SDEs. We evaluate our algorithm on the
task of structure-based drug design and optimize the binding affinity of
generated ligand molecules. Our method achieves the best Vina score -9.07 on
the CrossDocked2020 dataset.
- Abstract(参考訳): 高報酬でサンプルを生成することを考慮し,高表現性を持つ高次生成モデルである深層ニューラルネットワークパラメータ化確率微分方程式(sdes)の最適化に焦点をあてた。
それでも、政策勾配をSDEに適用する場合、政策勾配は有限の軌道上で推定されるため、不確定であり、データスカース領域の政策挙動は制御されない可能性がある。
この課題は政策勾配の安定性を妥協し、サンプルの複雑さに悪影響を及ぼす。
これらの問題に対処するため、我々はSDEが関連する摂動過程と一致するように制約することを提案する。
摂動過程は空間全体をカバーし、サンプリングが容易であるため、上記の問題を緩和することができる。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択できる一般的なアプローチを提供する。
本アルゴリズムは, 創製リガンド分子の結合親和性を最適化し, 構造に基づく薬物設計の課題として評価する。
提案手法は,CrossDocked2020データセット上で最高のVinaスコア-9.07を達成する。
関連論文リスト
- A Simulation-Free Deep Learning Approach to Stochastic Optimal Control [12.699529713351287]
最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。
既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。
政策勾配法と逆熱方程式の解法との等価性を実証する。
我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文 参考訳(メタデータ) (2024-05-28T05:05:33Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。