論文の概要: Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study
on Hybrid Vehicle Energy Management
- arxiv url: http://arxiv.org/abs/2305.01461v2
- Date: Mon, 25 Dec 2023 07:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 02:12:28.436481
- Title: Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study
on Hybrid Vehicle Energy Management
- Title(参考訳): 強化学習による混合整数最適制御:ハイブリッド自動車エネルギー管理の事例研究
- Authors: Jinming Xu and Yuan Lin
- Abstract要約: 本稿では,2つの遅延深度決定論的アクターQ(TD3AQ)を最適制御問題に適用する,新しい連続離散強化学習法を提案する。
TD3AQはアクター批判とQ-ラーニングの両方の利点を組み合わせ、連続したアクション空間と離散的なアクション空間を同時に扱うことができる。
提案手法はプラグインハイブリッド電気自動車(PHEV)のエネルギー管理問題に対して評価される。
- 参考スコア(独自算出の注目度): 2.75667685248593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many optimal control problems require the simultaneous output of continuous
and discrete control variables. Such problems are usually formulated as
mixed-integer optimal control (MIOC) problems, which are challenging to solve
due to the complexity of the solution space. Numerical methods such as
branch-and-bound are computationally expensive and unsuitable for real-time
control. This brief proposes a novel continuous-discrete reinforcement learning
(CDRL) algorithm, twin delayed deep deterministic actor-Q (TD3AQ), for MIOC
problems. TD3AQ combines the advantages of both actor-critic and Q-learning
methods, and can handle the continuous and discrete action spaces
simultaneously. The proposed algorithm is evaluated on a plug-in hybrid
electric vehicle (PHEV) energy management problem, where real-time control of
the continuous variable, engine torque, and discrete variables, gear shift and
clutch engagement/disengagement is essential to maximize fuel economy while
satisfying driving constraints. Simulation results on different drive cycles
show that TD3AQ achieves near-optimal control compared to dynamic programming
(DP) and outperforms baseline reinforcement learning algorithms.
- Abstract(参考訳): 多くの最適制御問題は連続および離散制御変数の同時出力を必要とする。
このような問題は、通常、混合整数最適制御(MIOC)問題として定式化され、解空間の複雑さのために解決が難しい。
分岐とバウンドのような数値的な手法は計算コストが高く、リアルタイム制御には適さない。
本稿では,MIOC問題に対する2つの遅延深度決定論的アクターQ(TD3AQ)である連続離散強化学習(CDRL)アルゴリズムを提案する。
td3aqはアクタ-クリティックとq-ラーニングの両方の方法の利点を組み合わせることで、連続的および離散的なアクションスペースを同時に扱うことができる。
提案アルゴリズムは, 連続変数, エンジントルク, 離散変数のリアルタイム制御を行うプラグインハイブリッド電気自動車 (PHEV) エネルギー管理問題において, 運転制約を満たしつつ, 燃費を最大化するためには, 歯車シフトとクラッチエンゲージメント・ディスエンゲージメントが不可欠である。
シミュレーション結果から,TD3AQは動的プログラミング(DP)と比較してほぼ最適に制御でき,ベースライン強化学習アルゴリズムよりも優れていた。
関連論文リスト
- Lane-Keeping Control of Autonomous Vehicles Through a Soft-Constrained
Iterative LQR [0.0]
我々は、CILQRアルゴリズムとモデル予測制御(MPC)制約緩和法を統合することで、ソフト制約付き反復線形四元数レギュレータ(Soft-CILQR)アルゴリズムを開発した。
数値シミュレーションでは, ソフトCILQRおよびCILQRソルバは, 正常に基準に向かってシステムを動かすことができたが, 加法障害を伴う条件下でのCILQRソルバよりもスムーズなステアリング入力軌道を得ることができた。
論文 参考訳(メタデータ) (2023-11-28T15:58:13Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Intelligent Autonomous Intersection Management [1.3534683694551497]
本稿では、強化学習に基づくマルチエージェントアーキテクチャと、マルチディスカウントQ-ラーニングを用いた新しいRLアルゴリズムを提案する。
実験結果から, RLをベースとしたマルチエージェント・ソリューションは, ほぼ最適性能を効率よく達成できることが示唆された。
論文 参考訳(メタデータ) (2022-02-09T01:45:12Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - DC3: A learning method for optimization with hard constraints [85.12291213315905]
この問題に対処するアルゴリズムとして,Deep Constraint Completion and Correction (DC3)を提案する。
DC3は、等式制約を満たす部分解と不等式制約を満たすアンロールベースの補正を暗黙的に完成する。
合成最適化タスクとAC最適電力流の実世界設定の両方でDC3の有効性を実証します。
論文 参考訳(メタデータ) (2021-04-25T18:21:59Z) - Integrated Decision and Control: Towards Interpretable and Efficient
Driving Intelligence [13.589285628074542]
自動走行車のための解釈可能かつ効率的な意思決定・制御フレームワークを提案する。
駆動タスクを階層的に構造化されたマルチパス計画と最適追跡に分解する。
その結果,オンライン計算の効率性や交通効率,安全性などの運転性能が向上した。
論文 参考訳(メタデータ) (2021-03-18T14:43:31Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - A Reinforcement Learning Approach for Transient Control of Liquid Rocket
Engines [0.0]
本研究では, ガス発生器エンジンの連続起動位相の最適制御のための深部強化学習手法について検討する。
学習したポリシは,異なる定常動作点に到達し,システムパラメータの変化に説得力を持って適応できることが示されている。
論文 参考訳(メタデータ) (2020-06-19T12:50:18Z) - Continuous-Discrete Reinforcement Learning for Hybrid Control in
Robotics [21.823173895315605]
本稿では、ハイブリッド強化学習を用いて、ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。
実験では,提案手法がこれらのハイブリッド強化学習問題を効率的に解くことを最初に実証した。
そして、シミュレーションとロボットハードウェアの両方において、専門家が設計した不完全なものを除去する利点が示されます。
論文 参考訳(メタデータ) (2020-01-02T14:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。