論文の概要: Physics-Guided Actor-Critic Reinforcement Learning for Swimming in Turbulence
- arxiv url: http://arxiv.org/abs/2406.10242v3
- Date: Sun, 10 Nov 2024 17:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:42.812801
- Title: Physics-Guided Actor-Critic Reinforcement Learning for Swimming in Turbulence
- Title(参考訳): 物理誘導型アクター・クリティカル強化学習による乱流スイミング
- Authors: Christopher Koh, Laurent Pagnier, Michael Chertkov,
- Abstract要約: 乱流拡散は粒子を分離に近接させる。
本研究では,物理インフォームド強化学習戦略を新たに開発し,所定の制御と物理に依存しない強化学習戦略と比較する。
合成BKおよびより現実的なアーノルド・ベルトラミ・チルドレス流環境における広範な数値実験により,提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.402817967099747
- License:
- Abstract: Turbulent diffusion causes particles placed in proximity to separate. We investigate the required swimming efforts to maintain an active particle close to its passively advected counterpart. We explore optimally balancing these efforts by developing a novel physics-informed reinforcement learning strategy and comparing it with prescribed control and physics-agnostic reinforcement learning strategies. Our scheme, coined the actor-physicist, is an adaptation of the actor-critic algorithm in which the neural network parameterized critic is replaced with an analytically derived physical heuristic function, the physicist. We validate the proposed physics-informed reinforcement learning approach through extensive numerical experiments in both synthetic BK and more realistic Arnold-Beltrami-Childress flow environments, demonstrating its superiority in controlling particle dynamics when compared to standard reinforcement learning methods.
- Abstract(参考訳): 乱流拡散は粒子を分離に近接させる。
受動的に対流する粒子に近い活性粒子を維持するために必要な水泳の努力について検討した。
本研究は,新しい物理インフォームド強化学習戦略を開発し,所定の制御と物理に依存しない強化学習戦略と比較することによって,これらの取り組みの最適バランスを検討する。
提案手法は,ニューラルネットワークのパラメータ化評論家を解析的に導出した物理ヒューリスティック関数に置き換えたアクタ批判アルゴリズムの適応である。
合成BKおよびより現実的なArnold-Beltrami-Childress流環境における広範囲な数値実験により,提案した物理インフォームド強化学習手法を検証し,標準強化学習法と比較した場合の粒子動力学制御の優位性を実証した。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms [7.081523472610874]
最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
いくつかの古典的強化学習課題に対するアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-06-20T21:50:46Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Asynchronous Parallel Reinforcement Learning for Optimizing Propulsive
Performance in Fin Ray Control [3.889677386753812]
魚のひれは、万能な移動を促進するために、魚のひれを固定した魚の高度な制御システムを構成する。
魚の移動のキネマティクスと流体力学の広範な研究にもかかわらず、フィン線運動における複雑な制御戦略はほとんど解明されていない。
本研究では,様々な推進性能目標に適した複雑なフィン線制御戦略を得るために,流体構造相互作用(FSI)環境と相互作用する最先端のオフポリチックDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-21T00:06:17Z) - Reinforcement Learning for Molecular Dynamics Optimization: A Stochastic Pontryagin Maximum Principle Approach [3.0077933778535706]
分子動力学を最適化する新しい強化学習フレームワークを提案する。
われわれのフレームワークは、最終的な分子構成だけでなく、軌道全体に焦点を当てている。
本手法は, 創薬や分子設計などの分野への応用に適している。
論文 参考訳(メタデータ) (2022-12-06T20:44:24Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Proximal Policy Optimization via Enhanced Exploration Efficiency [6.2501569560329555]
近似ポリシー最適化(PPO)アルゴリズムは、優れた性能を持つ深層強化学習アルゴリズムである。
本稿では,PPOアルゴリズムにおける元のガウス的行動探索機構の仮定を分析し,探索能力が性能に与える影響を明らかにする。
複雑な環境で使用可能な固有探査モジュール(IEM-PPO)を提案する。
論文 参考訳(メタデータ) (2020-11-11T03:03:32Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。