論文の概要: Safe Reinforcement Learning for Real-World Engine Control
- arxiv url: http://arxiv.org/abs/2501.16613v1
- Date: Tue, 28 Jan 2025 01:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:27.693892
- Title: Safe Reinforcement Learning for Real-World Engine Control
- Title(参考訳): 実世界のエンジン制御のための安全強化学習
- Authors: Julian Bedei, Lucas Koch, Kevin Badalian, Alexander Winkler, Patrick Schaber, Jakob Andert,
- Abstract要約: この研究は、安全クリティカルな現実世界環境に強化学習(RL)を適用するためのツールチェーンを導入する。
RLは実行可能な解決策を提供するが、過度の圧力上昇率などの安全上の懸念に対処する必要がある。
k-アネレスト隣り合うアルゴリズムに基づくリアルタイム安全監視を実装し、テストベンチとの安全な相互作用を可能にする。
- 参考スコア(独自算出の注目度): 39.9074966439168
- License:
- Abstract: This work introduces a toolchain for applying Reinforcement Learning (RL), specifically the Deep Deterministic Policy Gradient (DDPG) algorithm, in safety-critical real-world environments. As an exemplary application, transient load control is demonstrated on a single-cylinder internal combustion engine testbench in Homogeneous Charge Compression Ignition (HCCI) mode, that offers high thermal efficiency and low emissions. However, HCCI poses challenges for traditional control methods due to its nonlinear, autoregressive, and stochastic nature. RL provides a viable solution, however, safety concerns, such as excessive pressure rise rates, must be addressed when applying to HCCI. A single unsuitable control input can severely damage the engine or cause misfiring and shut down. Additionally, operating limits are not known a priori and must be determined experimentally. To mitigate these risks, real-time safety monitoring based on the k-nearest neighbor algorithm is implemented, enabling safe interaction with the testbench. The feasibility of this approach is demonstrated as the RL agent learns a control policy through interaction with the testbench. A root mean square error of 0.1374 bar is achieved for the indicated mean effective pressure, comparable to neural network-based controllers from the literature. The toolchain's flexibility is further demonstrated by adapting the agent's policy to increase ethanol energy shares, promoting renewable fuel use while maintaining safety. This RL approach addresses the longstanding challenge of applying RL to safety-critical real-world environments. The developed toolchain, with its adaptability and safety mechanisms, paves the way for future applicability of RL in engine testbenches and other safety-critical settings.
- Abstract(参考訳): この研究は、強化学習(RL)、特に、安全クリティカルな現実世界環境でのDeep Deterministic Policy Gradient(DDPG)アルゴリズムを適用するためのツールチェーンを導入する。
常温圧縮着火(HCCI)モードの単気筒内燃機関試験槽では, 過渡負荷制御が実演され, 高い熱効率と低エミッションを実現している。
しかし、HCCIは非線形で自己回帰的で確率的な性質のため、従来の制御方法に挑戦する。
しかし、RLはHCCIに適用する場合、過度の圧力上昇率などの安全性上の懸念に対処する必要がある。
単一の不適切な制御入力がエンジンに深刻な損傷を与えたり、ミスフィリングやシャットダウンを引き起こすことがある。
さらに、操作限界は事前性とは知られておらず、実験的に決定されなければならない。
これらのリスクを軽減するため、k-nearest 隣り合うアルゴリズムに基づくリアルタイム安全監視を実装し、テストベンチとの安全な相互作用を可能にする。
このアプローチの有効性は、RLエージェントがテストベンチとの相互作用を通じて制御ポリシーを学ぶことによって実証される。
文献のニューラルネットワークベースのコントローラに匹敵する、指示された平均有効圧力に対して、0.1374バーの根平均二乗誤差が達成される。
ツールチェーンの柔軟性は、エタノールエネルギーの共有を増やすためのエージェントのポリシーに適応し、安全を維持しながら再生可能燃料の使用を促進することでさらに実証される。
このRLアプローチは、安全クリティカルな現実世界環境にRLを適用するという長年にわたる課題に対処する。
開発したツールチェーンは、適応性と安全性のメカニズムを持ち、エンジンテストベンチやその他の安全上重要な設定でRLを将来適用するための道を開く。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Reinforcement Learning with Adaptive Regularization for Safe Control of Critical Systems [2.126171264016785]
安全なRL探索を可能にするアルゴリズムである適応正規化(RL-AR)を提案する。
RL-ARは「フォーカスモジュール」を介してポリシーの組み合わせを行い、状態に応じて適切な組み合わせを決定する。
一連のクリティカルコントロールアプリケーションにおいて、RL-ARはトレーニング中の安全性を保証するだけでなく、モデルフリーなRLの標準との競合も得ることを示した。
論文 参考訳(メタデータ) (2024-04-23T16:35:14Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。