論文の概要: Turbulence control in plane Couette flow using low-dimensional neural
ODE-based models and deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2301.12098v1
- Date: Sat, 28 Jan 2023 05:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:06:34.201412
- Title: Turbulence control in plane Couette flow using low-dimensional neural
ODE-based models and deep reinforcement learning
- Title(参考訳): 低次元ニューラルODEモデルと深部強化学習を用いた平面クエット流の乱流制御
- Authors: Alec J. Linot and Kevin Zeng and Michael D. Graham
- Abstract要約: DManD-RL (data-driven manifold dynamics-RL) は,データ駆動型低次元モデルを生成する。
我々はRL制御エージェントを訓練し、数値シミュレーションで440倍のスピードアップを達成した。
エージェントは900時間以内の未確認DNSテストトラジェクトリの84%をラミナライズするポリシーを学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high dimensionality and complex dynamics of turbulent flows remain an
obstacle to the discovery and implementation of control strategies. Deep
reinforcement learning (RL) is a promising avenue for overcoming these
obstacles, but requires a training phase in which the RL agent iteratively
interacts with the flow environment to learn a control policy, which can be
prohibitively expensive when the environment involves slow experiments or
large-scale simulations. We overcome this challenge using a framework we call
"DManD-RL" (data-driven manifold dynamics-RL), which generates a data-driven
low-dimensional model of our system that we use for RL training. With this
approach, we seek to minimize drag in a direct numerical simulation (DNS) of a
turbulent minimal flow unit of plane Couette flow at Re=400 using two slot jets
on one wall. We obtain, from DNS data with $\mathcal{O}(10^5)$ degrees of
freedom, a 25-dimensional DManD model of the dynamics by combining an
autoencoder and neural ordinary differential equation. Using this model as the
environment, we train an RL control agent, yielding a 440-fold speedup over
training on the DNS, with equivalent control performance. The agent learns a
policy that laminarizes 84% of unseen DNS test trajectories within 900 time
units, significantly outperforming classical opposition control (58%), despite
the actuation authority being much more restricted. The agent often achieves
laminarization through a counterintuitive strategy that drives the formation of
two low-speed streaks, with a spanwise wavelength that is too small to be
self-sustaining. The agent demonstrates the same performance when we limit
observations to wall shear rate.
- Abstract(参考訳): 乱流の高次元と複雑な力学は制御戦略の発見と実装の障害として残っている。
深部強化学習(英: Deep reinforcement learning、RL)は、これらの障害を克服するために有望な方法であるが、RLエージェントがフロー環境と反復的に相互作用して制御ポリシーを学ぶための訓練段階を必要とする。
我々はこの課題を、私たちがDManD-RL(DmanD-RL)と呼ぶフレームワークを用いて克服し、RLトレーニングに使用するシステムのデータ駆動型低次元モデルを生成する。
提案手法では,Re=400の平面クーエット流の乱流最小流量単位の直接数値シミュレーション(DNS)において,2つのスロットジェットを1つの壁面に用いた抵抗を最小化する。
我々は、自由度$\mathcal{O}(10^5)$自由度を持つDNSデータから、オートエンコーダとニューラル常微分方程式を組み合わせることにより、力学の25次元DManDモデルを得る。
このモデルを環境として使用することにより、RL制御エージェントをトレーニングし、DNS上でのトレーニングよりも440倍のスピードアップを実現し、同等の制御性能を得る。
エージェントは900時間以内の未確認DNSテスト軌道の84%をラミナライズするポリシーを学び、アクティベーション権限がより制限されているにもかかわらず、古典的な反対制御(58%)を著しく上回る。
エージェントはしばしば、2つの低速ストリークの形成を駆動する反直感的な戦略によってラミナリゼーションを達成し、自給自足するには小さすぎる波長を持つ。
このエージェントは,壁面せん断速度に限って観測を行う場合と同じ性能を示す。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Model-Based Reinforcement Learning for Control of Strongly-Disturbed Unsteady Aerodynamic Flows [0.0]
本稿では,モデルに基づく強化学習(MBRL)手法を提案する。
モデルの堅牢性と一般化性は、2つの異なる流れ環境で実証される。
そこで本研究では,低次環境下で学んだ政策が,フルCFD環境における効果的な制御戦略に変換されることを実証する。
論文 参考訳(メタデータ) (2024-08-26T23:21:44Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning [5.59265003686955]
SINDy-RLは,SINDyと深層強化学習を組み合わせたフレームワークである。
SINDy-RLは最先端のDRLアルゴリズムに匹敵する性能を達成する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-14T05:17:39Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Data-driven control of spatiotemporal chaos with reduced-order neural
ODE-based models and reinforcement learning [0.0]
ディープラーニングは、高次元システムの複雑な制御戦略を発見することができ、フロー制御アプリケーションに期待できる。
RLに関連する大きな課題は、ターゲットシステムと繰り返し対話することによって、実質的なトレーニングデータを生成する必要があることだ。
我々は、RLトレーニング中に真のシステムを配置したデータ駆動リダクション・オーダー・モデル(ROM)を用いて、最適なポリシーを効率的に推定する。
ROMベースの制御戦略は真のKSEによく似ており、RLエージェントがKSEシステムの根底にある強制平衡解を発見し、安定化することを強調する。
論文 参考訳(メタデータ) (2022-05-01T23:25:44Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。