論文の概要: Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study
on Hybrid Vehicle Energy Management
- arxiv url: http://arxiv.org/abs/2305.01461v1
- Date: Tue, 2 May 2023 14:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:17:46.165567
- Title: Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study
on Hybrid Vehicle Energy Management
- Title(参考訳): 強化学習による混合整数最適制御:ハイブリッド自動車エネルギー管理の事例研究
- Authors: Jinming Xu and Yuan Lin
- Abstract要約: 本稿では,2つの遅延深度決定性アクターQ(TD3AQ)を最適制御問題に適用する,連続離散強化学習(CDRL)アルゴリズムを提案する。
TD3AQはアクター批判とQ-ラーニングの両方の利点を組み合わせ、連続したアクション空間と離散的なアクション空間を同時に扱うことができる。
提案アルゴリズムはハイブリッド電気自動車(HEV)エネルギー管理問題において評価される。
- 参考スコア(独自算出の注目度): 3.133419667314326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many optimal control problems require the simultaneous output of continuous
and discrete control variables. Such problems are usually formulated as
mixed-integer optimal control (MIOC) problems, which are challenging to solve
due to the complexity of the solution space. Numerical methods such as
branch-and-bound are computationally expensive and unsuitable for real-time
control. This paper proposes a novel continuous-discrete reinforcement learning
(CDRL) algorithm, twin delayed deep deterministic actor-Q (TD3AQ), for MIOC
problems. TD3AQ combines the advantages of both actor-critic and Q-learning
methods, and can handle the continuous and discrete action spaces
simultaneously. The proposed algorithm is evaluated on a hybrid electric
vehicle (HEV) energy management problem, where real-time control of the
continuous variable engine torque and discrete variable gear ratio is essential
to maximize fuel economy while satisfying driving constraints. Simulation
results on different drive cycles show that TD3AQ can achieve near-optimal
solutions compared to dynamic programming (DP) and outperforms the
state-of-the-art discrete RL algorithm Rainbow, which is adopted for MIOC by
discretizing continuous actions into a finite set of discrete values.
- Abstract(参考訳): 多くの最適制御問題は連続および離散制御変数の同時出力を必要とする。
このような問題は、通常、混合整数最適制御(MIOC)問題として定式化され、解空間の複雑さのために解決が難しい。
分岐とバウンドのような数値的な手法は計算コストが高く、リアルタイム制御には適さない。
本稿では,MIOC問題に対する2つの遅延深度決定論的アクターQ(TD3AQ)である連続離散強化学習(CDRL)アルゴリズムを提案する。
td3aqはアクタ-クリティックとq-ラーニングの両方の方法の利点を組み合わせることで、連続的および離散的なアクションスペースを同時に扱うことができる。
提案アルゴリズムはハイブリッド電気自動車(HEV)エネルギー管理問題において,運転制約を満たしつつ燃料経済を最大化するために,連続可変エンジントルクと離散可変ギア比のリアルタイム制御が不可欠である。
異なるドライブサイクルでのシミュレーションの結果、td3aqは動的計画法(dp)と比較して最適に近い解を実現できることを示し、連続的な動作を有限個の離散値に離散化することによってmiocに採用された最先端の離散rlアルゴリズムレインボーを上回っている。
関連論文リスト
- Harnessing the Power of Gradient-Based Simulations for Multi-Objective Optimization in Particle Accelerators [5.565261874218803]
本稿では, 粒子加速器の深部微分可能強化学習アルゴリズムを用いてMOO問題の解法における微分可能性の効果を示す。
基礎となる問題は、個々の状態と行動の両方に厳密な制約を課し、ビームのエネルギー要求に対する累積的(グローバル)制約を課している。
論文 参考訳(メタデータ) (2024-11-07T15:55:05Z) - Communication-Control Codesign for Large-Scale Wireless Networked Control Systems [80.30532872347668]
無線ネットワーク制御システム(Wireless Networked Control Systems, WNCS)は、ドローン群や自律ロボットなどのアプリケーションにおいて柔軟な制御を可能にする産業用4.0に必須である。
本稿では,マルチ状態マルコフブロックフェーディングチャネル上で限られた無線リソースを共有するセンサやアクチュエータを用いて,複数の制御ループ間の相関ダイナミクスを捕捉する実用的WNCSモデルを提案する。
本研究では,ハイブリッドな動作空間を効率的に処理し,通信制御の相関関係を捉え,疎域変数や浮動小数点制御の入力に拘わらず堅牢なトレーニングを確実にするDeep Reinforcement Learning (DRL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-15T06:28:21Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Multi-agent Deep Reinforcement Learning for Charge-sustaining Control of
Multi-mode Hybrid Vehicles [9.416703139663705]
電気化は車両の電気部品の増加を必要とする。
本稿では,マルチモードハイブリッド電気自動車におけるエネルギー管理戦略のオンライン最適化に焦点をあてる。
マルチエージェントを用いた新しいサイバー物理学習法が提案されている。
論文 参考訳(メタデータ) (2022-09-06T16:40:55Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Learning Solution Manifolds for Control Problems via Energy Minimization [32.59818752168615]
様々な制御タスクは一般にエネルギー最小化問題として定式化されている。
このような問題に対する数値解は十分に確立されているが、しばしばリアルタイムアプリケーションで直接使用されるには遅すぎる。
本稿では,効率的かつ数値的に堅牢な行動クローニング(BC)の代替手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T14:28:57Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Continuous-Discrete Reinforcement Learning for Hybrid Control in
Robotics [21.823173895315605]
本稿では、ハイブリッド強化学習を用いて、ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。
実験では,提案手法がこれらのハイブリッド強化学習問題を効率的に解くことを最初に実証した。
そして、シミュレーションとロボットハードウェアの両方において、専門家が設計した不完全なものを除去する利点が示されます。
論文 参考訳(メタデータ) (2020-01-02T14:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。