論文の概要: Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study on Hybrid Electric Vehicle Energy Management
- arxiv url: http://arxiv.org/abs/2305.01461v3
- Date: Fri, 31 May 2024 02:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 21:00:54.962794
- Title: Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study on Hybrid Electric Vehicle Energy Management
- Title(参考訳): 強化学習による混合整数最適制御:ハイブリッド電気自動車エネルギー管理の事例研究
- Authors: Jinming Xu, Nasser Lashgarian Azad, Yuan Lin,
- Abstract要約: 本稿では,2つの遅延深い決定論的アクターQ(TD3AQ)を最適制御問題に適用するハイブリッドアクション強化学習(HARL)アルゴリズムを提案する。
TD3AQはアクター批判とQ-ラーニングの両方の利点を組み合わせ、離散的かつ連続的なアクション空間を同時に扱うことができる。
提案手法はプラグインハイブリッド電気自動車(PHEV)のエネルギー管理問題に対して評価される。
- 参考スコア(独自算出の注目度): 2.0762193863564926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many optimal control problems require the simultaneous output of discrete and continuous control variables. These problems are usually formulated as mixed-integer optimal control (MIOC) problems, which are challenging to solve due to the complexity of the solution space. Numerical methods such as branch-and-bound are computationally expensive and undesirable for real-time control. This paper proposes a novel hybrid-action reinforcement learning (HARL) algorithm, twin delayed deep deterministic actor-Q (TD3AQ), for MIOC problems. TD3AQ combines the advantages of both actor-critic and Q-learning methods, and can handle the discrete and continuous action spaces simultaneously. The proposed algorithm is evaluated on a plug-in hybrid electric vehicle (PHEV) energy management problem, where real-time control of the discrete variables, clutch engagement/disengagement and gear shift, and continuous variable, engine torque, is essential to maximize fuel economy while satisfying driving constraints. Simulation outcomes demonstrate that TD3AQ achieves control results close to optimality when compared with dynamic programming (DP), with just 4.69% difference. Furthermore, it surpasses the performance of baseline reinforcement learning algorithms.
- Abstract(参考訳): 多くの最適制御問題は離散制御変数と連続制御変数の同時出力を必要とする。
これらの問題は、通常、混合整数最適制御(MIOC)問題として定式化され、解空間の複雑さのために解決が難しい。
ブランチ・アンド・バウンドのような数値的な手法は計算コストが高く、リアルタイム制御には望ましくない。
本稿では,MIOC問題に対する2つの遅延深い決定論的アクターQ(TD3AQ)であるハイブリッドアクション強化学習(HARL)アルゴリズムを提案する。
TD3AQはアクター批判とQ-ラーニングの両方の利点を組み合わせ、離散的かつ連続的なアクション空間を同時に扱うことができる。
提案アルゴリズムは, 独立変数, クラッチエンゲージメント, ギヤシフト, 連続変数, エンジントルクをリアルタイムに制御するプラグインハイブリッド電気自動車(PHEV)エネルギー管理問題において, 運転制約を満たすことなく, 燃費を最大化するために不可欠である。
シミュレーションの結果、TD3AQは動的プログラミング(DP)と比較して最適に近い制御結果を得るが、差はわずか4.69%である。
さらに、ベースライン強化学習アルゴリズムの性能を上回ります。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Multi-agent Deep Reinforcement Learning for Charge-sustaining Control of
Multi-mode Hybrid Vehicles [9.416703139663705]
電気化は車両の電気部品の増加を必要とする。
本稿では,マルチモードハイブリッド電気自動車におけるエネルギー管理戦略のオンライン最適化に焦点をあてる。
マルチエージェントを用いた新しいサイバー物理学習法が提案されている。
論文 参考訳(メタデータ) (2022-09-06T16:40:55Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Learning Solution Manifolds for Control Problems via Energy Minimization [32.59818752168615]
様々な制御タスクは一般にエネルギー最小化問題として定式化されている。
このような問題に対する数値解は十分に確立されているが、しばしばリアルタイムアプリケーションで直接使用されるには遅すぎる。
本稿では,効率的かつ数値的に堅牢な行動クローニング(BC)の代替手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T14:28:57Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - DC3: A learning method for optimization with hard constraints [85.12291213315905]
この問題に対処するアルゴリズムとして,Deep Constraint Completion and Correction (DC3)を提案する。
DC3は、等式制約を満たす部分解と不等式制約を満たすアンロールベースの補正を暗黙的に完成する。
合成最適化タスクとAC最適電力流の実世界設定の両方でDC3の有効性を実証します。
論文 参考訳(メタデータ) (2021-04-25T18:21:59Z) - Integrated Decision and Control: Towards Interpretable and Efficient
Driving Intelligence [13.589285628074542]
自動走行車のための解釈可能かつ効率的な意思決定・制御フレームワークを提案する。
駆動タスクを階層的に構造化されたマルチパス計画と最適追跡に分解する。
その結果,オンライン計算の効率性や交通効率,安全性などの運転性能が向上した。
論文 参考訳(メタデータ) (2021-03-18T14:43:31Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Continuous-Discrete Reinforcement Learning for Hybrid Control in
Robotics [21.823173895315605]
本稿では、ハイブリッド強化学習を用いて、ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。
実験では,提案手法がこれらのハイブリッド強化学習問題を効率的に解くことを最初に実証した。
そして、シミュレーションとロボットハードウェアの両方において、専門家が設計した不完全なものを除去する利点が示されます。
論文 参考訳(メタデータ) (2020-01-02T14:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。