論文の概要: Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study
on Hybrid Vehicle Energy Management
- arxiv url: http://arxiv.org/abs/2305.01461v1
- Date: Tue, 2 May 2023 14:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:17:46.165567
- Title: Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study
on Hybrid Vehicle Energy Management
- Title(参考訳): 強化学習による混合整数最適制御:ハイブリッド自動車エネルギー管理の事例研究
- Authors: Jinming Xu and Yuan Lin
- Abstract要約: 本稿では,2つの遅延深度決定性アクターQ(TD3AQ)を最適制御問題に適用する,連続離散強化学習(CDRL)アルゴリズムを提案する。
TD3AQはアクター批判とQ-ラーニングの両方の利点を組み合わせ、連続したアクション空間と離散的なアクション空間を同時に扱うことができる。
提案アルゴリズムはハイブリッド電気自動車(HEV)エネルギー管理問題において評価される。
- 参考スコア(独自算出の注目度): 3.133419667314326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many optimal control problems require the simultaneous output of continuous
and discrete control variables. Such problems are usually formulated as
mixed-integer optimal control (MIOC) problems, which are challenging to solve
due to the complexity of the solution space. Numerical methods such as
branch-and-bound are computationally expensive and unsuitable for real-time
control. This paper proposes a novel continuous-discrete reinforcement learning
(CDRL) algorithm, twin delayed deep deterministic actor-Q (TD3AQ), for MIOC
problems. TD3AQ combines the advantages of both actor-critic and Q-learning
methods, and can handle the continuous and discrete action spaces
simultaneously. The proposed algorithm is evaluated on a hybrid electric
vehicle (HEV) energy management problem, where real-time control of the
continuous variable engine torque and discrete variable gear ratio is essential
to maximize fuel economy while satisfying driving constraints. Simulation
results on different drive cycles show that TD3AQ can achieve near-optimal
solutions compared to dynamic programming (DP) and outperforms the
state-of-the-art discrete RL algorithm Rainbow, which is adopted for MIOC by
discretizing continuous actions into a finite set of discrete values.
- Abstract(参考訳): 多くの最適制御問題は連続および離散制御変数の同時出力を必要とする。
このような問題は、通常、混合整数最適制御(MIOC)問題として定式化され、解空間の複雑さのために解決が難しい。
分岐とバウンドのような数値的な手法は計算コストが高く、リアルタイム制御には適さない。
本稿では,MIOC問題に対する2つの遅延深度決定論的アクターQ(TD3AQ)である連続離散強化学習(CDRL)アルゴリズムを提案する。
td3aqはアクタ-クリティックとq-ラーニングの両方の方法の利点を組み合わせることで、連続的および離散的なアクションスペースを同時に扱うことができる。
提案アルゴリズムはハイブリッド電気自動車(HEV)エネルギー管理問題において,運転制約を満たしつつ燃料経済を最大化するために,連続可変エンジントルクと離散可変ギア比のリアルタイム制御が不可欠である。
異なるドライブサイクルでのシミュレーションの結果、td3aqは動的計画法(dp)と比較して最適に近い解を実現できることを示し、連続的な動作を有限個の離散値に離散化することによってmiocに採用された最先端の離散rlアルゴリズムレインボーを上回っている。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Lane-Keeping Control of Autonomous Vehicles Through a Soft-Constrained
Iterative LQR [0.0]
我々は、CILQRアルゴリズムとモデル予測制御(MPC)制約緩和法を統合することで、ソフト制約付き反復線形四元数レギュレータ(Soft-CILQR)アルゴリズムを開発した。
数値シミュレーションでは, ソフトCILQRおよびCILQRソルバは, 正常に基準に向かってシステムを動かすことができたが, 加法障害を伴う条件下でのCILQRソルバよりもスムーズなステアリング入力軌道を得ることができた。
論文 参考訳(メタデータ) (2023-11-28T15:58:13Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Intelligent Autonomous Intersection Management [1.3534683694551497]
本稿では、強化学習に基づくマルチエージェントアーキテクチャと、マルチディスカウントQ-ラーニングを用いた新しいRLアルゴリズムを提案する。
実験結果から, RLをベースとしたマルチエージェント・ソリューションは, ほぼ最適性能を効率よく達成できることが示唆された。
論文 参考訳(メタデータ) (2022-02-09T01:45:12Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - DC3: A learning method for optimization with hard constraints [85.12291213315905]
この問題に対処するアルゴリズムとして,Deep Constraint Completion and Correction (DC3)を提案する。
DC3は、等式制約を満たす部分解と不等式制約を満たすアンロールベースの補正を暗黙的に完成する。
合成最適化タスクとAC最適電力流の実世界設定の両方でDC3の有効性を実証します。
論文 参考訳(メタデータ) (2021-04-25T18:21:59Z) - Integrated Decision and Control: Towards Interpretable and Efficient
Driving Intelligence [13.589285628074542]
自動走行車のための解釈可能かつ効率的な意思決定・制御フレームワークを提案する。
駆動タスクを階層的に構造化されたマルチパス計画と最適追跡に分解する。
その結果,オンライン計算の効率性や交通効率,安全性などの運転性能が向上した。
論文 参考訳(メタデータ) (2021-03-18T14:43:31Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - A Reinforcement Learning Approach for Transient Control of Liquid Rocket
Engines [0.0]
本研究では, ガス発生器エンジンの連続起動位相の最適制御のための深部強化学習手法について検討する。
学習したポリシは,異なる定常動作点に到達し,システムパラメータの変化に説得力を持って適応できることが示されている。
論文 参考訳(メタデータ) (2020-06-19T12:50:18Z) - Continuous-Discrete Reinforcement Learning for Hybrid Control in
Robotics [21.823173895315605]
本稿では、ハイブリッド強化学習を用いて、ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。
実験では,提案手法がこれらのハイブリッド強化学習問題を効率的に解くことを最初に実証した。
そして、シミュレーションとロボットハードウェアの両方において、専門家が設計した不完全なものを除去する利点が示されます。
論文 参考訳(メタデータ) (2020-01-02T14:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。