論文の概要: Koopman-based surrogate modeling for reinforcement-learning-control of Rayleigh-Benard convection
- arxiv url: http://arxiv.org/abs/2603.28074v1
- Date: Mon, 30 Mar 2026 06:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.256276
- Title: Koopman-based surrogate modeling for reinforcement-learning-control of Rayleigh-Benard convection
- Title(参考訳): Rayleigh-Benard対流の強化学習制御のためのクープマンに基づく代理モデル
- Authors: Tim Plotzki, Sebastian Peitz,
- Abstract要約: 線形リカレントオートエンコーダネットワーク(LRAN)を用いて2次元レイリー・ベナード対流のRL制御を高速化する。
我々は、ランダムな行動によって生成された事前計算データに基づいて訓練されたサロゲートと、進化するポリシーから収集されたデータを用いて反復的に訓練されたポリシー対応サロゲートの2つのトレーニング戦略を評価する。
以上の結果から,サロゲートのみのトレーニングが制御性能の低下につながる一方で,サロゲートとDNSを併用することで,トレーニング時間を40%以上削減しつつ,最先端のパフォーマンスを回復できることがわかった。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training reinforcement learning (RL) agents to control fluid dynamics systems is computationally expensive due to the high cost of direct numerical simulations (DNS) of the governing equations. Surrogate models offer a promising alternative by approximating the dynamics at a fraction of the computational cost, but their feasibility as training environments for RL is limited by distribution shifts, as policies induce state distributions not covered by the surrogate training data. In this work, we investigate the use of Linear Recurrent Autoencoder Networks (LRANs) for accelerating RL-based control of 2D Rayleigh-Bénard convection. We evaluate two training strategies: a surrogate trained on precomputed data generated with random actions, and a policy-aware surrogate trained iteratively using data collected from an evolving policy. Our results show that while surrogate-only training leads to reduced control performance, combining surrogates with DNS in a pretraining scheme recovers state-of-the-art performance while reducing training time by more than 40%. We demonstrate that policy-aware training mitigates the effects of distribution shift, enabling more accurate predictions in policy-relevant regions of the state space.
- Abstract(参考訳): 流体力学系を制御するための強化学習(RL)エージェントは、制御方程式の直接数値シミュレーション(DNS)のコストが高いため、計算コストが高い。
代理モデルは計算コストのごく一部でダイナミクスを近似することで有望な代替手段を提供するが、RLのトレーニング環境としてのその実現可能性は、代理訓練データにカバーされない状態分布を誘導するため、分布シフトによって制限される。
本研究ではリニアリカレントオートエンコーダネットワーク(LRAN)を用いて2次元レイリー・ベナード対流のRL制御を高速化する。
我々は、ランダムな行動によって生成された事前計算データに基づいて訓練されたサロゲートと、進化するポリシーから収集されたデータを用いて反復的に訓練されたポリシー対応サロゲートの2つのトレーニング戦略を評価する。
以上の結果から,サロゲートのみのトレーニングが制御性能の低下につながる一方で,サロゲートとDNSを併用することで,トレーニング時間を40%以上削減しつつ,最先端のパフォーマンスを回復できることがわかった。
政策対応型学習は、配当シフトの影響を緩和し、状態空間の政策関連領域におけるより正確な予測を可能にすることを実証する。
関連論文リスト
- RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [45.19254609437857]
オンライン強化学習(RL)は、複雑で安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、限定的な解釈可能性に悩まされている。
データ属性は、モデルの振る舞いをトレーニングサンプルに遡る、原則化された方法を提供する。
本稿では、オンラインRLトレーニングのためのアルゴリズムである反復的影響ベースのフィルタリング(IIF)を提案し、ポリシー更新を洗練するための経験的フィルタリングを反復的に行う。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop [1.8218298349840023]
強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。
組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-25T09:13:12Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。