論文の概要: Reinforcement Learning for Molecular Dynamics Optimization: A Stochastic Pontryagin Maximum Principle Approach
- arxiv url: http://arxiv.org/abs/2212.03320v2
- Date: Mon, 21 Oct 2024 06:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:08.832165
- Title: Reinforcement Learning for Molecular Dynamics Optimization: A Stochastic Pontryagin Maximum Principle Approach
- Title(参考訳): 分子動力学最適化のための強化学習:確率論的ポントリャーギン最大原理アプローチ
- Authors: Chandrajit Bajaj, Minh Nguyen, Conrad Li,
- Abstract要約: 分子動力学を最適化する新しい強化学習フレームワークを提案する。
われわれのフレームワークは、最終的な分子構成だけでなく、軌道全体に焦点を当てている。
本手法は, 創薬や分子設計などの分野への応用に適している。
- 参考スコア(独自算出の注目度): 3.0077933778535706
- License:
- Abstract: In this paper, we present a novel reinforcement learning framework designed to optimize molecular dynamics by focusing on the entire trajectory rather than just the final molecular configuration. Leveraging a stochastic version of Pontryagin's Maximum Principle (PMP) and Soft Actor-Critic (SAC) algorithm, our framework effectively explores non-convex molecular energy landscapes, escaping local minima to stabilize in low-energy states. Our approach operates in continuous state and action spaces without relying on labeled data, making it applicable to a wide range of molecular systems. Through extensive experimentation on six distinct molecules, including Bradykinin and Oxytocin, we demonstrate competitive performance against other unsupervised physics-based methods, such as the Greedy and NEMO-based algorithms. Our method's adaptability and focus on dynamic trajectory optimization make it suitable for applications in areas such as drug discovery and molecular design.
- Abstract(参考訳): 本稿では, 分子構造だけでなく, 軌道全体に着目し, 分子動力学を最適化する新しい強化学習フレームワークを提案する。
我々は,ポントリャーギンの最大原理 (PMP) とソフトアクター・クリティカル (SAC) アルゴリズムの確率的バージョンを活用し,非凸な分子エネルギーの展望を効果的に探求し,低エネルギー状態の安定化のために局所的なミニマを回避した。
我々の手法はラベル付きデータに頼ることなく連続状態と作用空間で動作し、幅広い分子システムに適用できる。
BradykininやOxytocinを含む6つの異なる分子の広範な実験を通じて、グレディやNEMOベースのアルゴリズムのような、他の教師なしの物理ベースの手法と競合する性能を示す。
本手法の適応性と動的軌道最適化への焦点は, 薬物発見や分子設計などの分野への応用に適している。
関連論文リスト
- Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Combining Reinforcement Learning and Tensor Networks, with an Application to Dynamical Large Deviations [0.0]
テンソルネットワーク(TN)と強化学習(RL)を統合するためのフレームワークを提案する。
我々は,RL問題に対するモデルフリーアプローチであるアクター批判法を考察し,そのポリシーと値関数の近似としてTNを導入する。
論文 参考訳(メタデータ) (2022-09-28T13:33:31Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Physics-informed neural networks via stochastic Hamiltonian dynamics learning [3.2857981869020327]
最適制御問題に対処するための新しい学習フレームワークを提案する。
ポントリャーギンの最大原理を元の最適制御問題に適用することは、学習焦点をハミルトン力学の減少にシフトさせる。
我々は,NeuralPMPと呼ばれる学習フレームワークを様々な制御タスクに適用し,競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-15T22:13:43Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Entropy Regularized Reinforcement Learning Using Large Deviation Theory [3.058685580689605]
本稿では,エントロピー規則化RLのマッピングと非平衡統計力学の研究を行う。
大偏差理論からのアプローチを適用し、最適政策と最適力学の正確な解析結果を導出する。
その結果、エントロピー規則化RLの新たな解析および計算フレームワークが実現され、シミュレーションによって検証される。
論文 参考訳(メタデータ) (2021-06-07T19:42:06Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。