論文の概要: Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model
- arxiv url: http://arxiv.org/abs/2604.04986v1
- Date: Sun, 05 Apr 2026 01:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.383398
- Title: Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model
- Title(参考訳): 強化学習に基づくフロー制御におけるサンプル効率の向上--評論家を適応的低次モデルに置き換える
- Authors: Zesheng Yao, Zhen-Hua Wan, Canjun Yang, Qingchao Xia, Mengqi Zhang,
- Abstract要約: 本研究は,アクティブフロー制御のための適応型リダクション・オーダ・モデル(ROM)に基づく強化学習フレームワークを導入する。
ROMは線形力学系とニューラル常微分方程式(NODE)を統合し、流れの非線形性を推定する。
ブラシウス境界層の流れと正方形円筒を通り抜ける流れの2つの正準流制御問題に対して検証を行った。
- 参考スコア(独自算出の注目度): 7.530352384088837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free deep reinforcement learning (DRL) methods suffer from poor sample efficiency. To overcome this limitation, this work introduces an adaptive reduced-order-model (ROM)-based reinforcement learning framework for active flow control. In contrast to conventional actor--critic architectures, the proposed approach leverages a ROM to estimate the gradient information required for controller optimization. The design of the ROM structure incorporates physical insights. The ROM integrates a linear dynamical system and a neural ordinary differential equation (NODE) for estimating the nonlinearity in the flow. The parameters of the linear component are identified via operator inference, while the NODE is trained in a data-driven manner using gradient-based optimization. During controller--environment interactions, the ROM is continuously updated with newly collected data, enabling adaptive refinement of the model. The controller is then optimized through differentiable simulation of the ROM. The proposed ROM-based DRL framework is validated on two canonical flow control problems: Blasius boundary layer flow and flow past a square cylinder. For the Blasius boundary layer, the proposed method effectively reduces to a single-episode system identification and controller optimization process, yet it yields controllers that outperform traditional linear designs and achieve performance comparable to DRL approaches with minimal data. For the flow past a square cylinder, the proposed method achieves superior drag reduction with significantly fewer exploration data compared with DRL approaches. The work addresses a key component of model-free DRL control algorithms and lays the foundation for designing more sample-efficient DRL-based active flow controllers.
- Abstract(参考訳): モデルフリー深部強化学習(DRL)法は, サンプル効率の低下に悩まされる。
この制限を克服するために、アクティブフロー制御のための適応型リダクション・オーダー・モデル(ROM)ベースの強化学習フレームワークを導入する。
従来のアクター批判アーキテクチャとは対照的に,提案手法はROMを利用して制御器最適化に必要な勾配情報を推定する。
ROM構造の設計には、物理的な洞察が組み込まれている。
ROMは線形力学系とニューラル常微分方程式(NODE)を統合し、流れの非線形性を推定する。
線形成分のパラメータは演算子推論によって同定され、NODEは勾配に基づく最適化を用いてデータ駆動方式で訓練される。
コントローラ-環境相互作用の間、ROMは新たに収集されたデータで継続的に更新され、モデルの適応的な洗練を可能にする。
コントローラはROMの微分可能なシミュレーションによって最適化される。
The proposed ROM-based DRL framework is confirmeded on two canonical flow control problem: Blasius boundary layer flow and flow through a square cylinder。
ブラシウス境界層の場合,提案手法は単一位相のシステム識別とコントローラ最適化プロセスに効果的に還元されるが,従来の線形設計より優れ,最小限のデータでDRLアプローチに匹敵する性能を実現するコントローラが得られる。
正方形円筒を過ぎる流れに対して,DRL法に比べて探索データが少なく,より優れた抵抗低減を実現する。
この研究は、モデルフリーのDRL制御アルゴリズムの重要なコンポーネントに対処し、よりサンプル効率の良いDRLベースのアクティブフローコントローラを設計するための基盤となる。
関連論文リスト
- Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Optimal Derivative Feedback Control for an Active Magnetic Levitation System: An Experimental Study on Data-Driven Approaches [0.0]
本稿では,アクティブ磁気浮上システムのためのデータ駆動型最適微分フィードバックコントローラの設計と実装について述べる。
直接モデルフリーなアプローチでは、複数のプロセスデータを集めるためにエポックループと呼ばれる反復層を追加するポリシーの反復手順が提案されている。
以上の結果から, 両制御器は名目モデルから設計した制御器と比較して, 磁気浮上系の性能を安定させ, 向上させることができるが, 直接モデルフリーアプローチは複数のエポックが許容された場合, 間接解よりも常に優れることがわかった。
論文 参考訳(メタデータ) (2026-02-06T18:42:01Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Controllable Flow Matching for Online Reinforcement Learning [5.944099401274571]
条件付きフローマッチング(CFM)を用いた軌道レベルの合成法であるCtrlFlowを提案する。
本手法は,非線形制御性グラミアン行列が支配する制御エネルギーを最小化することにより,最適軌道サンプリングを実現する。
オンライン設定では、CtrlFlowは、動的モデルよりも一般的な MuJoCo ベンチマークタスクのパフォーマンスが優れていることを実証している。
論文 参考訳(メタデータ) (2025-11-10T08:01:20Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Data efficient reinforcement learning and adaptive optimal perimeter
control of network traffic dynamics [0.0]
本研究は、適応最適周波制御のためのマクロトラフィックダイナミクスの学習のための積分強化学習(IRL)に基づくアプローチを提案する。
サンプリングの複雑さを低減し、利用可能なデータをより効率的に利用するために、IRLアルゴリズムに経験再生(ER)技術を導入している。
IRLに基づくアルゴリズムの収束と制御された交通力学の安定性は、リャプノフ理論によって証明される。
論文 参考訳(メタデータ) (2022-09-13T04:28:49Z) - Two-step reinforcement learning for model-free redesign of nonlinear
optimal regulator [1.5624421399300306]
強化学習(Reinforcement Learning, RL)は、非線形力学系のための最適制御系をモデル無しで再設計できる、有望なアプローチの1つである。
未知の非線形システムに対する最適レギュレーション再設計問題において,RLの過渡学習性能を向上させるモデルフリー2段階設計手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T17:12:33Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。