論文の概要: Solving the Side-Chain Packing Arrangement of Proteins from
Reinforcement Learned Stochastic Decision Making
- arxiv url: http://arxiv.org/abs/2212.03320v1
- Date: Tue, 6 Dec 2022 20:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:30:42.054741
- Title: Solving the Side-Chain Packing Arrangement of Proteins from
Reinforcement Learned Stochastic Decision Making
- Title(参考訳): 強化学習した確率的意思決定によるタンパク質の側鎖パッキング配置の解法
- Authors: Chandrajit Bajaj and Conrad Li and Minh Nguyen
- Abstract要約: タンパク質構造予測は、計算分子生物学における根本的な問題である。
我々は、ポントリャーギン最大原理(PMP)のパラメタライズドハミルトン版に基づく強化学習フレームワークを開発する。
我々のRL実装では、ソフトアクター批判手法を採用していますが、A2C、A3C、PPOに基づく他のRLトレーニングを置き換えることができます。
- 参考スコア(独自算出の注目度): 3.4830782050102864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein structure prediction is a fundamental problem in computational
molecular biology. Classical algorithms such as ab-initio or threading as well
as many learning methods have been proposed to solve this challenging problem.
However, most reinforcement learning methods tend to model the state-action
pairs as discrete objects. In this paper, we develop a reinforcement learning
(RL) framework in a continuous setting and based on a stochastic parametrized
Hamiltonian version of the Pontryagin maximum principle (PMP) to solve the
side-chain packing and protein-folding problem. For special cases our
formulation can be reduced to previous work where the optimal folding
trajectories are trained using an explicit use of Langevin dynamics. Optimal
continuous stochastic Hamiltonian dynamics folding pathways can be derived with
use of different models of molecular energetics and force fields. In our RL
implementation we adopt a soft actor-critic methodology however we can replace
this other RL training based on A2C, A3C or PPO.
- Abstract(参考訳): タンパク質構造予測は計算分子生物学における根本的な問題である。
この課題を解決するために、ab-initioやthreadingといった古典的なアルゴリズムや多くの学習方法が提案されている。
しかし、ほとんどの強化学習法は状態-作用対を離散オブジェクトとしてモデル化する傾向がある。
本稿では,PMP(Pongryagin maximum principle)の確率的パラメトリケートハミルトン版をベースとして,連続的な環境下での強化学習(RL)フレームワークを開発し,側鎖パッキングとタンパク質の折り畳み問題を解決する。
特別の場合、我々の定式化は、最適折りたたみ軌跡をランゲヴィン力学の明示的な利用を用いて訓練する以前の作業に還元することができる。
最適連続確率ハミルトン力学の折り畳み経路は、分子エネルギーと力場の異なるモデルを用いて導出することができる。
我々のRL実装では、ソフトアクター批判手法を採用していますが、A2C、A3C、PPOに基づく他のRLトレーニングを置き換えることができます。
関連論文リスト
- Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Reinforcement Learning with Tensor Networks: Application to Dynamical
Large Deviations [0.0]
テンソルネットワーク(TN)と強化学習(RL)を統合するためのフレームワークを提案する。
我々は,RL問題に対するモデルフリーアプローチであるアクター批判法を考察し,そのポリシーと値関数の近似としてTNを導入する。
論文 参考訳(メタデータ) (2022-09-28T13:33:31Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Optimal Control with Stochastic Models of Hamiltonian Dynamics [3.6929078762384098]
最適制御問題に対処するための新しい学習フレームワークを提案する。
ポントリャーギンの最大原理を元の最適制御問題に適用することにより、学習焦点はハミルトン力学と対応する随伴変数にシフトする。
論文 参考訳(メタデータ) (2021-11-15T22:13:43Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Entropy Regularized Reinforcement Learning Using Large Deviation Theory [3.058685580689605]
本稿では,エントロピー規則化RLのマッピングと非平衡統計力学の研究を行う。
大偏差理論からのアプローチを適用し、最適政策と最適力学の正確な解析結果を導出する。
その結果、エントロピー規則化RLの新たな解析および計算フレームワークが実現され、シミュレーションによって検証される。
論文 参考訳(メタデータ) (2021-06-07T19:42:06Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。