論文の概要: A Robust and Constrained Multi-Agent Reinforcement Learning Framework
for Electric Vehicle AMoD Systems
- arxiv url: http://arxiv.org/abs/2209.08230v1
- Date: Sat, 17 Sep 2022 03:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 20:22:48.815961
- Title: A Robust and Constrained Multi-Agent Reinforcement Learning Framework
for Electric Vehicle AMoD Systems
- Title(参考訳): 電気自動車AMoDシステムのためのロバスト・制約付きマルチエージェント強化学習フレームワーク
- Authors: Sihong He, Yue Wang, Shuo Han, Shaofeng Zou, Fei Miao
- Abstract要約: 電気自動車(EV)は、自律型モビリティ・オン・デマンド(AMoD)システムにおいて重要な役割を果たす。
これらのユニークな充電パターンは、AMoDシステムのモデル不確実性を増大させる。
モデル不確実性はEV AMoDシステム再バランスでは明確に考慮されていない。
- 参考スコア(独自算出の注目度): 21.75510664959339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electric vehicles (EVs) play critical roles in autonomous mobility-on-demand
(AMoD) systems, but their unique charging patterns increase the model
uncertainties in AMoD systems (e.g. state transition probability). Since there
usually exists a mismatch between the training and test (true) environments,
incorporating model uncertainty into system design is of critical importance in
real-world applications. However, model uncertainties have not been considered
explicitly in EV AMoD system rebalancing by existing literature yet and remain
an urgent and challenging task. In this work, we design a robust and
constrained multi-agent reinforcement learning (MARL) framework with transition
kernel uncertainty for the EV rebalancing and charging problem. We then propose
a robust and constrained MARL algorithm (ROCOMA) that trains a robust EV
rebalancing policy to balance the supply-demand ratio and the charging
utilization rate across the whole city under state transition uncertainty.
Experiments show that the ROCOMA can learn an effective and robust rebalancing
policy. It outperforms non-robust MARL methods when there are model
uncertainties. It increases the system fairness by 19.6% and decreases the
rebalancing costs by 75.8%.
- Abstract(参考訳): 電気自動車(EV)は自律移動オンデマンド(AMoD)システムにおいて重要な役割を果たすが、そのユニークな充電パターンはAMoDシステムにおけるモデルの不確実性(状態遷移確率など)を増加させる。
通常、トレーニングとテスト(真の)環境の間にはミスマッチがあるため、システム設計にモデルの不確実性を取り込むことは、現実世界のアプリケーションにおいて非常に重要である。
しかしながら、EV AMoDシステムにおけるモデル不確実性は、既存の文献によって明確に考慮されておらず、緊急かつ困難な課題である。
本研究では,EV再バランスおよび充電問題に対する遷移カーネルの不確実性を考慮した,堅牢かつ制約付きマルチエージェント強化学習(MARL)フレームワークを設計する。
そこで我々は,都市全体の需給率と充電利用率のバランスをとるために,ロバストなEV再バランス政策を訓練する堅牢で制約のあるMARLアルゴリズム(ROCOMA)を提案する。
実験により、rocomaは効果的でロバストなリバランスポリシーを学習できることが示されている。
モデル不確実性がある場合、非ロバスト marl メソッドよりも優れる。
システムフェアネスを19.6%向上させ、再バランスコストを75.8%削減する。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Robust Electric Vehicle Balancing of Autonomous Mobility-On-Demand
System: A Multi-Agent Reinforcement Learning Approach [6.716627474314613]
電気自動車(EAV)は、将来の自動運転モビリティ・オン・デマンド(AMoD)システムで注目を集めている。
EAVのユニークな充電パターンは、E-AMoDシステムにおけるEAVの供給を正確に予測することを困難にしている。
強化学習に基づくE-AMoDバランスアルゴリズムの成功にもかかわらず、EV供給や移動需要による状態の不確実性は未解明のままである。
論文 参考訳(メタデータ) (2023-07-30T13:40:42Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Model-Free Voltage Regulation of Unbalanced Distribution Network Based
on Surrogate Model and Deep Reinforcement Learning [9.984416150031217]
本稿では,サロゲートモデルと深部強化学習(DRL)に基づくモデルフリーアプローチを開発する。
また、バランスの取れない3段階シナリオに対応するように拡張しました。
論文 参考訳(メタデータ) (2020-06-24T18:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。