論文の概要: Reinforcement Learning in a Physics-Inspired Semi-Markov Environment
- arxiv url: http://arxiv.org/abs/2004.07333v1
- Date: Wed, 15 Apr 2020 20:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 02:45:34.362576
- Title: Reinforcement Learning in a Physics-Inspired Semi-Markov Environment
- Title(参考訳): 物理に着想を得たセミマルコフ環境における強化学習
- Authors: Colin Bellinger, Rory Coles, Mark Crowley, and Isaac Tamblyn
- Abstract要約: 物理に着想を得た準マルコフRL環境、すなわち位相変化環境を示す。
MDPと部分的に観測可能なMPPの両方に対して,値に基づくRLアルゴリズムの性能を評価する。
- 参考スコア(独自算出の注目度): 2.5304062944594827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been demonstrated to have great potential in
many applications of scientific discovery and design. Recent work includes, for
example, the design of new structures and compositions of molecules for
therapeutic drugs. Much of the existing work related to the application of RL
to scientific domains, however, assumes that the available state representation
obeys the Markov property. For reasons associated with time, cost, sensor
accuracy, and gaps in scientific knowledge, many scientific design and
discovery problems do not satisfy the Markov property. Thus, something other
than a Markov decision process (MDP) should be used to plan / find the optimal
policy. In this paper, we present a physics-inspired semi-Markov RL
environment, namely the phase change environment. In addition, we evaluate the
performance of value-based RL algorithms for both MDPs and partially observable
MDPs (POMDPs) on the proposed environment. Our results demonstrate deep
recurrent Q-networks (DRQN) significantly outperform deep Q-networks (DQN), and
that DRQNs benefit from training with hindsight experience replay. Implications
for the use of semi-Markovian RL and POMDPs for scientific laboratories are
also discussed.
- Abstract(参考訳): 強化学習(rl)は科学的発見と設計の多くの応用において大きな可能性を秘めている。
最近の研究には、例えば、治療薬のための新しい構造と分子の組成の設計が含まれる。
しかし、RLの科学領域への応用に関する既存の研究の多くは、利用可能な状態表現がマルコフの性質に従うと仮定している。
時間、コスト、センサーの精度、科学知識のギャップに関連する理由から、多くの科学的設計や発見問題はマルコフの性質を満たしていない。
したがって、マルコフ決定プロセス(MDP)以外のものは、最適なポリシーを計画/発見するために使われるべきです。
本稿では,物理に着想を得た準マルコフRL環境,すなわち位相変化環境について述べる。
さらに,提案環境におけるMDPと部分観測可能なMDPの両方に対する値ベースRLアルゴリズムの性能評価を行った。
以上の結果から, 深部Q-networks (DRQN) は深部Q-networks (DQN) より有意に優れており, DRQN は後視体験リプレイによるトレーニングの恩恵を受けることが示唆された。
セミマルコフRLとPMDPの科学実験への応用についても論じる。
関連論文リスト
- Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z) - Exploring the Advantages of Quantum Generative Adversarial Networks in
Generative Chemistry [8.98977891798507]
我々は小分子発見のためのハイブリッド量子古典生成逆数ネットワーク(GAN)を提案した。
我々は,GANの各素子を可変量子回路(VQC)で置換し,小型薬物発見における量子的優位性を実証した。
論文 参考訳(メタデータ) (2022-10-30T11:57:56Z) - A Systematic Survey of Chemical Pre-trained Models [38.57023440288189]
ディープニューラルネットワーク(DNN)をスクラッチからトレーニングするには、しばしば大量のラベル付き分子を必要とする。
この問題を緩和するため、分子事前学習モデル(CPM)に多大な努力が注がれている。
CPMは、大規模未ラベルの分子データベースを使用して事前訓練され、特定の下流タスクに対して微調整される。
論文 参考訳(メタデータ) (2022-10-29T03:53:11Z) - Biologically Plausible Variational Policy Gradient with Spiking
Recurrent Winner-Take-All Networks [4.833815605196964]
Reward-modulated spike-timing-dependent plasticity (RSTDP) はエネルギー効率に有望な最近の分岐である。
本稿では,グローバルな政策勾配から局所学習規則を導出するSVPG法を提案する。
MNIST分類とGym InPendulumの実験では,SVPGは様々なノイズに対して頑健性を実現する。
論文 参考訳(メタデータ) (2022-10-21T08:19:14Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - A Systematic Comparison Study on Hyperparameter Optimisation of Graph
Neural Networks for Molecular Property Prediction [8.02401104726362]
グラフニューラルネットワーク(GNN)は、幅広いグラフ関連学習タスクに対して提案されている。
近年,分子特性の予測に応用されたGNNシステムが増えてきている。
論文 参考訳(メタデータ) (2021-02-08T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。