論文の概要: Data efficient reinforcement learning and adaptive optimal perimeter
control of network traffic dynamics
- arxiv url: http://arxiv.org/abs/2209.05726v1
- Date: Tue, 13 Sep 2022 04:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:26:23.116693
- Title: Data efficient reinforcement learning and adaptive optimal perimeter
control of network traffic dynamics
- Title(参考訳): データ効率の良い強化学習とネットワークトラフィックダイナミクスの最適周辺制御
- Authors: C. Chen, Y. P. Huang, W. H. K. Lam, T. L. Pan, S. C. Hsu, A. Sumalee,
R. X. Zhong
- Abstract要約: 本研究は、適応最適周波制御のためのマクロトラフィックダイナミクスの学習のための積分強化学習(IRL)に基づくアプローチを提案する。
サンプリングの複雑さを低減し、利用可能なデータをより効率的に利用するために、IRLアルゴリズムに経験再生(ER)技術を導入している。
IRLに基づくアルゴリズムの収束と制御された交通力学の安定性は、リャプノフ理論によって証明される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing data-driven and feedback traffic control strategies do not consider
the heterogeneity of real-time data measurements. Besides, traditional
reinforcement learning (RL) methods for traffic control usually converge slowly
for lacking data efficiency. Moreover, conventional optimal perimeter control
schemes require exact knowledge of the system dynamics and thus would be
fragile to endogenous uncertainties. To handle these challenges, this work
proposes an integral reinforcement learning (IRL) based approach to learning
the macroscopic traffic dynamics for adaptive optimal perimeter control. This
work makes the following primary contributions to the transportation
literature: (a) A continuous-time control is developed with discrete gain
updates to adapt to the discrete-time sensor data. (b) To reduce the sampling
complexity and use the available data more efficiently, the experience replay
(ER) technique is introduced to the IRL algorithm. (c) The proposed method
relaxes the requirement on model calibration in a "model-free" manner that
enables robustness against modeling uncertainty and enhances the real-time
performance via a data-driven RL algorithm. (d) The convergence of the
IRL-based algorithms and the stability of the controlled traffic dynamics are
proven via the Lyapunov theory. The optimal control law is parameterized and
then approximated by neural networks (NN), which moderates the computational
complexity. Both state and input constraints are considered while no model
linearization is required. Numerical examples and simulation experiments are
presented to verify the effectiveness and efficiency of the proposed method.
- Abstract(参考訳): 既存のデータ駆動およびフィードバックトラヒックコントロール戦略は、リアルタイムデータ測定の多様性を考慮していない。
さらに、トラヒックコントロールのための従来の強化学習(rl)手法は、データ効率を損なうため、通常は緩やかに収束する。
さらに、従来の最適周囲制御スキームはシステムダイナミクスの正確な知識を必要とするため、内在的不確実性に対して脆弱である。
これらの課題に対処するために、適応最適周波制御のためのマクロ的トラフィックダイナミクスを学習するための積分強化学習(IRL)に基づくアプローチを提案する。
本書は輸送文学に次の主要な貢献をしている。
(a)離散時間センサデータに対応するために、離散利得更新を伴う連続時間制御を開発する。
b) サンプリングの複雑さを低減し、利用可能なデータをより効率的に利用するためには、IRLアルゴリズムに経験再生(ER)技術を導入する。
c) 提案手法はモデルキャリブレーションの要求を「モデルフリー」に緩和し,モデル不確実性に対する頑健性を実現し,データ駆動rlアルゴリズムによる実時間性能を向上させる。
(d)IRLに基づくアルゴリズムの収束と制御された交通力学の安定性はリャプノフ理論によって証明される。
最適制御則はパラメータ化され、計算複雑性を緩和するニューラルネットワーク(nn)によって近似される。
状態制約も入力制約も考慮されるが、モデル線形化は必要ない。
提案手法の有効性と有効性を検証するため, 数値実験およびシミュレーション実験を行った。
関連論文リスト
- Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control [50.0791489606211]
非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分正確なシステムモデルを必要とする。
メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減するために使用できる。
In this method for end-to-end reinforcement learning of dynamic surrogate model for optimal performance in (e)NMPC applications。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Physics-Informed Deep Learning for Traffic State Estimation [3.779860024918729]
交通状態推定(TSE)は、部分的に観測されたデータを用いて道路セグメント上の交通変数(例えば密度)を再構築する。
本論文では,少量の観測データを用いて高品質なTSEを効率的に実行するための物理情報深層学習(PIDL)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2021-01-17T03:28:32Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Efficiency and Equity are Both Essential: A Generalized Traffic Signal
Controller with Deep Reinforcement Learning [25.21831641893209]
本稿では,信号制御系に対して,最適化されたトラフィックフローを目的とした深層強化学習を用いた学習ポリシーを提案する。
提案手法は,効率と公平性を同時に考慮した報酬関数の新規な定式化を用いている。
シミュレーションおよび実世界のデータを用いた実験により,提案アルゴリズムが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-03-09T11:34:52Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。