論文の概要: Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop
- arxiv url: http://arxiv.org/abs/2310.17671v1
- Date: Wed, 25 Oct 2023 09:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:10:57.144889
- Title: Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop
- Title(参考訳): 強化学習型制御器のモデルからハードウェア・イン・ザ・ループへの移動
- Authors: Mario Picerno, Lucas Koch, Kevin Badalian, Marius Wegener, Joschka
Schaub, Charles Robert Koch, and Jakob Andert
- Abstract要約: 強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。
組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
- 参考スコア(独自算出の注目度): 1.8218298349840023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The process of developing control functions for embedded systems is
resource-, time-, and data-intensive, often resulting in sub-optimal cost and
solutions approaches. Reinforcement Learning (RL) has great potential for
autonomously training agents to perform complex control tasks with minimal
human intervention. Due to costly data generation and safety constraints,
however, its application is mostly limited to purely simulated domains. To use
RL effectively in embedded system function development, the generated agents
must be able to handle real-world applications. In this context, this work
focuses on accelerating the training process of RL agents by combining Transfer
Learning (TL) and X-in-the-Loop (XiL) simulation. For the use case of transient
exhaust gas re-circulation control for an internal combustion engine, use of a
computationally cheap Model-in-the-Loop (MiL) simulation is made to select a
suitable algorithm, fine-tune hyperparameters, and finally train candidate
agents for the transfer. These pre-trained RL agents are then fine-tuned in a
Hardware-in-the-Loop (HiL) system via TL. The transfer revealed the need for
adjusting the reward parameters when advancing to real hardware. Further, the
comparison between a purely HiL-trained and a transferred agent showed a
reduction of training time by a factor of 5.9. The results emphasize the
necessity to train RL agents with real hardware, and demonstrate that the
maturity of the transferred policies affects both training time and
performance, highlighting the strong synergies between TL and XiL simulation.
- Abstract(参考訳): 組み込みシステムの制御関数を開発するプロセスは、リソース、時間、データ集約であり、しばしば最適以下のコストとソリューションアプローチをもたらす。
強化学習(Reinforcement Learning, RL)は、人間の介入を最小限に抑えて複雑な制御タスクを自律的に行うことができる。
しかし、コストのかかるデータ生成と安全性の制約のため、そのアプリケーションは純粋にシミュレートされたドメインに限られている。
RLを組み込みシステム機能開発で効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本稿では,トランスファー・ラーニング (tl) と x-in-the-loop (xil) シミュレーションを組み合わせることで,rlエージェントの学習プロセスを高速化する。
内燃機関における過渡排気ガス再循環制御のユースケースとして、計算コストの低いモデル・イン・ザ・ループ(MiL)シミュレーションを用いて、適切なアルゴリズム、微調整ハイパーパラメータを選択し、最終的に移行候補エージェントを訓練する。
これらの事前訓練されたRLエージェントは、TLを介してハードウェア・イン・ザ・ループ(HiL)システムで微調整される。
この転送により、実際のハードウェアに進む際に報酬パラメータを調整する必要性が明らかになった。
また, 純粋なHiL添加剤と移行剤との比較では, トレーニング時間を5.9倍に短縮した。
その結果、実際のハードウェアでRLエージェントをトレーニングする必要があることが強調され、移行ポリシーの成熟度がトレーニング時間と性能の両方に影響を与えることが示され、TLとXiLシミュレーションの強い相乗効果が強調された。
関連論文リスト
- Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Sim-to-Real Transfer of Adaptive Control Parameters for AUV
Stabilization under Current Disturbance [1.099532646524593]
本稿では,最大エントロピー深層強化学習フレームワークを古典的なモデルベース制御アーキテクチャと組み合わせ,適応制御系を定式化する新しい手法を提案する。
本フレームワークでは,バイオインスパイアされた体験再生機構,拡張されたドメインランダム化手法,物理プラットフォーム上で実行される評価プロトコルなどを含むSim-to-Real転送戦略を導入する。
実験により,AUVの準最適モデルから有能なポリシを効果的に学習し,実車への移動時の制御性能を3倍に向上することを示した。
論文 参考訳(メタデータ) (2023-10-17T08:46:56Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - RL + Model-based Control: Using On-demand Optimal Control to Learn
Versatile Legged Locomotion [18.0248682206808]
本稿では,モデルに基づく最適制御と強化学習を組み合わせた制御フレームワークを提案する。
我々は、一連の実験を通じて、フレームワークの堅牢性と制御性を検証する。
本フレームワークは,多様な次元を持つロボットに対する制御ポリシーのトレーニングを,無力的に支援する。
論文 参考訳(メタデータ) (2023-05-29T01:33:55Z) - Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Deep Reinforcement Learning for Computational Fluid Dynamics on HPC
Systems [17.10464381844892]
強化学習(Reinforcement Learning, RL)は、動的システムの文脈における制御戦略の考案に非常に適している。
近年の研究では、RL強化計算流体力学(CFD)の解法が最先端技術を超えることが示唆されている。
我々は、機械学習とHPCシステム上の最新のCFDソルバ間のギャップを埋めるスケーラブルなRLフレームワークとしてRelexiを提示する。
論文 参考訳(メタデータ) (2022-05-13T08:21:18Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。