Fugu-MT 論文翻訳(概要): Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications

論文の概要: Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications

arxiv url: http://arxiv.org/abs/2304.12330v1
Date: Mon, 24 Apr 2023 08:54:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 23:15:25.651669
Title: Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications
Title（参考訳）: 並列ブートストラップに基づく連続流制御用オンライン深部強化学習
Authors: J. Viquerat and E. Hachem
Abstract要約: 学習過程における並行環境は、合理的な時間で効率的に制御するために不可欠な要素である。本稿では,リターンブートストラッピングステップで終了する部分軌道バッファに依存する並列性パターンを提案する。このアプローチは、文献からのCPU集約型連続フロー制御問題に説明される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The coupling of deep reinforcement learning to numerical flow control problems has recently received a considerable attention, leading to groundbreaking results and opening new perspectives for the domain. Due to the usually high computational cost of fluid dynamics solvers, the use of parallel environments during the learning process represents an essential ingredient to attain efficient control in a reasonable time. Yet, most of the deep reinforcement learning literature for flow control relies on on-policy algorithms, for which the massively parallel transition collection may break theoretical assumptions and lead to suboptimal control models. To overcome this issue, we propose a parallelism pattern relying on partial-trajectory buffers terminated by a return bootstrapping step, allowing a flexible use of parallel environments while preserving the on-policiness of the updates. This approach is illustrated on a CPU-intensive continuous flow control problem from the literature.
Abstract（参考訳）: 近年, 深部強化学習と数値流制御問題との結合が注目され, 画期的な結果が得られ, ドメインに対する新たな視点が開かれた。流体力学ソルバの計算コストが通常高いため、学習過程における並列環境の使用は、合理的な時間で効率的な制御を実現するための重要な要素である。しかし、フロー制御のための深層強化学習文献のほとんどは、超並列トランジッションコレクションが理論上の前提を破り、サブ最適制御モデルに繋がるオンポリシーアルゴリズムに依存している。この問題を克服するため,我々は,戻りブートストラップステップで終了する部分トラックバッファに依存する並列化パターンを提案し,更新のオンポリシティを維持しつつ,並列環境を柔軟に利用できるようにする。このアプローチは、文献からのCPU集約型連続フロー制御問題に説明される。

関連論文リスト

Data-Assimilated Model-Based Reinforcement Learning for Partially Observed Chaotic Flows [3.7960472831772765]
本稿では,部分観測可能性と雑音測定を行うシステムのためのデータ同化モデルベースRL(DA-MBRL)フレームワークを提案する。状態推定から最適制御戦略を学習するために,非政治アクター批判アルゴリズムを用いる。この枠組みは倉本-シヴァインスキーシュ方程式で検証され、時間的にカオス的な流れを安定化させる効果を実証した。
論文参考訳（メタデータ） (2025-04-23T10:12:53Z)
Invariant Control Strategies for Active Flow Control using Graph Neural Networks [0.0]
グラフニューラルネットワーク(GNN)を,強化学習(RL)に基づくフロー制御のための有望なアーキテクチャとして導入する。 GNNは非構造三次元フローデータを処理し、カルト格子の制約なしに空間的関係を保存する。我々は,GNNに基づく制御ポリシが,改良された一般化特性の恩恵を受けながら,既存の手法に匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-28T09:33:40Z)
Latent feedback control of distributed systems in multiple scenarios through deep learning-based reduced order models [3.5161229331588095]
高次元分散システムの継続的な監視とリアルタイム制御は、望まれる物理的な振る舞いを保証するためにアプリケーションに不可欠である。完全順序モデルに依存する従来のフィードバック制御設計は、制御計算の遅延のため、これらの要求を満たすことができない。非線形非侵襲的深層学習に基づく還元順序モデル(DL-ROM)により強化されたリアルタイム閉ループ制御戦略を提案する。
論文参考訳（メタデータ） (2024-12-13T08:04:21Z)
Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文参考訳（メタデータ） (2024-09-05T17:53:54Z)
Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文参考訳（メタデータ） (2024-04-05T17:58:37Z)
Model-based deep reinforcement learning for accelerated learning from flow simulations [0.0]
フロー制御アプリケーションにおけるモデルベース強化学習の利点を実証する。具体的には, 流れシミュレーションから採取した軌道と, 環境モデルのアンサンブルから採取した軌道とを交互に組み合わせることで, 政策を最適化する。モデルベースの学習は、流動的なピンボールテストケースに対して、トレーニング全体の時間を最大85%削減する。
論文参考訳（メタデータ） (2024-02-26T13:01:45Z)
FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。 ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文参考訳（メタデータ） (2024-02-07T11:11:46Z)
Diffusion Generative Flow Samplers: Improving learning signals through partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文参考訳（メタデータ） (2023-10-04T09:39:05Z)
AccFlow: Backward Accumulation for Long-Range Optical Flow [70.4251045372285]
本稿では、長距離光フロー推定のためのAccFlowと呼ばれる新しいリカレントフレームワークを提案する。従来の前方累積よりも後方累積の方が優れていることを示す。長距離光流量推定におけるAccFlowの有効性を検証する実験
論文参考訳（メタデータ） (2023-08-25T01:51:26Z)
Deep Q-network using reservoir computing with multi-layered readout [0.0]
リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使用される。 BPTTを使わずにエージェントを訓練するリプレイメモリ導入方式が提案されている。本稿では,読み出し層に多層ニューラルネットワークを適用することにより,本手法の性能が向上することを示す。
論文参考訳（メタデータ） (2022-03-03T00:32:55Z)
Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文参考訳（メタデータ） (2022-02-23T18:11:19Z)
Deep Learning Approximation of Diffeomorphisms via Linear-Control Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文参考訳（メタデータ） (2021-10-24T08:57:46Z)
An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文参考訳（メタデータ） (2020-06-19T22:05:19Z)
Single-step deep reinforcement learning for open-loop control of laminar and turbulent flows [0.0]
本研究は,流体力学系の最適化と制御を支援するための深部強化学習(DRL)技術の能力を評価する。原型ポリシー最適化(PPO)アルゴリズムの新たな"退化"バージョンを組み合わせることで、学習エピソード当たり1回だけシステムを最適化するニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2020-06-04T16:11:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。