Fugu-MT 論文翻訳(概要): Transfer of Reinforcement Learning-Based Controllers from Model- to Hardware-in-the-Loop

論文の概要: Transfer of Reinforcement Learning-Based Controllers from Model- to Hardware-in-the-Loop

arxiv url: http://arxiv.org/abs/2310.17671v1
Date: Wed, 25 Oct 2023 09:13:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 16:10:57.144889
Title: Transfer of Reinforcement Learning-Based Controllers from Model- to Hardware-in-the-Loop
Title（参考訳）: 強化学習型制御器のモデルからハードウェア・イン・ザ・ループへの移動
Authors: Mario Picerno, Lucas Koch, Kevin Badalian, Marius Wegener, Joschka Schaub, Charles Robert Koch, and Jakob Andert
Abstract要約: 強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
参考スコア（独自算出の注目度）: 1.8218298349840023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The process of developing control functions for embedded systems is resource-, time-, and data-intensive, often resulting in sub-optimal cost and solutions approaches. Reinforcement Learning (RL) has great potential for autonomously training agents to perform complex control tasks with minimal human intervention. Due to costly data generation and safety constraints, however, its application is mostly limited to purely simulated domains. To use RL effectively in embedded system function development, the generated agents must be able to handle real-world applications. In this context, this work focuses on accelerating the training process of RL agents by combining Transfer Learning (TL) and X-in-the-Loop (XiL) simulation. For the use case of transient exhaust gas re-circulation control for an internal combustion engine, use of a computationally cheap Model-in-the-Loop (MiL) simulation is made to select a suitable algorithm, fine-tune hyperparameters, and finally train candidate agents for the transfer. These pre-trained RL agents are then fine-tuned in a Hardware-in-the-Loop (HiL) system via TL. The transfer revealed the need for adjusting the reward parameters when advancing to real hardware. Further, the comparison between a purely HiL-trained and a transferred agent showed a reduction of training time by a factor of 5.9. The results emphasize the necessity to train RL agents with real hardware, and demonstrate that the maturity of the transferred policies affects both training time and performance, highlighting the strong synergies between TL and XiL simulation.
Abstract（参考訳）: 組み込みシステムの制御関数を開発するプロセスは、リソース、時間、データ集約であり、しばしば最適以下のコストとソリューションアプローチをもたらす。強化学習(Reinforcement Learning, RL)は、人間の介入を最小限に抑えて複雑な制御タスクを自律的に行うことができる。しかし、コストのかかるデータ生成と安全性の制約のため、そのアプリケーションは純粋にシミュレートされたドメインに限られている。 RLを組み込みシステム機能開発で効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。本稿では,トランスファー・ラーニング (tl) と x-in-the-loop (xil) シミュレーションを組み合わせることで,rlエージェントの学習プロセスを高速化する。内燃機関における過渡排気ガス再循環制御のユースケースとして、計算コストの低いモデル・イン・ザ・ループ(MiL)シミュレーションを用いて、適切なアルゴリズム、微調整ハイパーパラメータを選択し、最終的に移行候補エージェントを訓練する。これらの事前訓練されたRLエージェントは、TLを介してハードウェア・イン・ザ・ループ(HiL)システムで微調整される。この転送により、実際のハードウェアに進む際に報酬パラメータを調整する必要性が明らかになった。また, 純粋なHiL添加剤と移行剤との比較では, トレーニング時間を5.9倍に短縮した。その結果、実際のハードウェアでRLエージェントをトレーニングする必要があることが強調され、移行ポリシーの成熟度がトレーニング時間と性能の両方に影響を与えることが示され、TLとXiLシミュレーションの強い相乗効果が強調された。

関連論文リスト

Enhancing Reinforcement Learning for the Floorplanning of Analog ICs with Beam Search [0.32985979395737786]
本稿では,強化学習(RL)とビーム(BS)戦略を組み合わせたハイブリッド手法を提案する。 BSアルゴリズムはエージェントの推論プロセスを強化し、フレキシブルなフロアプランを生成する。実験結果から, 標準RL法と比較すると, 面積, 死空間, 線長が約5～85%向上した。
論文参考訳（メタデータ） (2025-05-08T08:50:32Z)
Optimisation of the Accelerator Control by Reinforcement Learning: A Simulation-Based Approach [0.615163395430594]
本研究では,Reinforcement Learning(RL)と統合されたシミュレーションベースのフレームワークの構築を目的とする。シミュレーションバックエンドとして textttElegant を用い,RL アルゴリズムとアクセルシミュレーションの相互作用を簡略化する Python ラッパーを開発した。提案したRLフレームワークは物理学者のコパイロットとして機能し,ビームライン性能の向上,チューニング時間短縮,運用効率の向上など,インテリジェントな提案を行う。
論文参考訳（メタデータ） (2025-03-12T16:57:52Z)
DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents [38.0441002097771]
DistRLは、モバイルデバイス制御エージェントのオンラインRLファインチューニングの効率を高めるために設計された、新しいフレームワークである。平均して、DistRLはトレーニング効率を3倍改善し、主要な同期マルチマシンメソッドよりも2.4倍高速なトレーニングデータ収集を可能にする。
論文参考訳（メタデータ） (2024-10-18T18:19:56Z)
Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文参考訳（メタデータ） (2023-11-22T01:06:45Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion [16.800984476447624]
本稿では,モデルに基づく最適制御と強化学習を組み合わせた制御フレームワークを提案する。我々は、一連の実験を通じて、フレームワークの堅牢性と制御性を検証する。本フレームワークは,多様な次元を持つロボットに対する制御ポリシーのトレーニングを,無力的に支援する。
論文参考訳（メタデータ） (2023-05-29T01:33:55Z)
Train a Real-world Local Path Planner in One Hour via Partially Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文参考訳（メタデータ） (2023-05-07T03:39:31Z)
Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文参考訳（メタデータ） (2022-11-23T19:17:20Z)
Deep Reinforcement Learning for Computational Fluid Dynamics on HPC Systems [17.10464381844892]
強化学習(Reinforcement Learning, RL)は、動的システムの文脈における制御戦略の考案に非常に適している。近年の研究では、RL強化計算流体力学(CFD)の解法が最先端技術を超えることが示唆されている。我々は、機械学習とHPCシステム上の最新のCFDソルバ間のギャップを埋めるスケーラブルなRLフレームワークとしてRelexiを提示する。
論文参考訳（メタデータ） (2022-05-13T08:21:18Z)
Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文参考訳（メタデータ） (2022-04-14T17:46:26Z)
Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。 Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文参考訳（メタデータ） (2021-04-04T17:56:34Z)
RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文参考訳（メタデータ） (2020-06-16T08:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。