論文の概要: Data efficient reinforcement learning and adaptive optimal perimeter
control of network traffic dynamics
- arxiv url: http://arxiv.org/abs/2209.05726v1
- Date: Tue, 13 Sep 2022 04:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:26:23.116693
- Title: Data efficient reinforcement learning and adaptive optimal perimeter
control of network traffic dynamics
- Title(参考訳): データ効率の良い強化学習とネットワークトラフィックダイナミクスの最適周辺制御
- Authors: C. Chen, Y. P. Huang, W. H. K. Lam, T. L. Pan, S. C. Hsu, A. Sumalee,
R. X. Zhong
- Abstract要約: 本研究は、適応最適周波制御のためのマクロトラフィックダイナミクスの学習のための積分強化学習(IRL)に基づくアプローチを提案する。
サンプリングの複雑さを低減し、利用可能なデータをより効率的に利用するために、IRLアルゴリズムに経験再生(ER)技術を導入している。
IRLに基づくアルゴリズムの収束と制御された交通力学の安定性は、リャプノフ理論によって証明される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing data-driven and feedback traffic control strategies do not consider
the heterogeneity of real-time data measurements. Besides, traditional
reinforcement learning (RL) methods for traffic control usually converge slowly
for lacking data efficiency. Moreover, conventional optimal perimeter control
schemes require exact knowledge of the system dynamics and thus would be
fragile to endogenous uncertainties. To handle these challenges, this work
proposes an integral reinforcement learning (IRL) based approach to learning
the macroscopic traffic dynamics for adaptive optimal perimeter control. This
work makes the following primary contributions to the transportation
literature: (a) A continuous-time control is developed with discrete gain
updates to adapt to the discrete-time sensor data. (b) To reduce the sampling
complexity and use the available data more efficiently, the experience replay
(ER) technique is introduced to the IRL algorithm. (c) The proposed method
relaxes the requirement on model calibration in a "model-free" manner that
enables robustness against modeling uncertainty and enhances the real-time
performance via a data-driven RL algorithm. (d) The convergence of the
IRL-based algorithms and the stability of the controlled traffic dynamics are
proven via the Lyapunov theory. The optimal control law is parameterized and
then approximated by neural networks (NN), which moderates the computational
complexity. Both state and input constraints are considered while no model
linearization is required. Numerical examples and simulation experiments are
presented to verify the effectiveness and efficiency of the proposed method.
- Abstract(参考訳): 既存のデータ駆動およびフィードバックトラヒックコントロール戦略は、リアルタイムデータ測定の多様性を考慮していない。
さらに、トラヒックコントロールのための従来の強化学習(rl)手法は、データ効率を損なうため、通常は緩やかに収束する。
さらに、従来の最適周囲制御スキームはシステムダイナミクスの正確な知識を必要とするため、内在的不確実性に対して脆弱である。
これらの課題に対処するために、適応最適周波制御のためのマクロ的トラフィックダイナミクスを学習するための積分強化学習(IRL)に基づくアプローチを提案する。
本書は輸送文学に次の主要な貢献をしている。
(a)離散時間センサデータに対応するために、離散利得更新を伴う連続時間制御を開発する。
b) サンプリングの複雑さを低減し、利用可能なデータをより効率的に利用するためには、IRLアルゴリズムに経験再生(ER)技術を導入する。
c) 提案手法はモデルキャリブレーションの要求を「モデルフリー」に緩和し,モデル不確実性に対する頑健性を実現し,データ駆動rlアルゴリズムによる実時間性能を向上させる。
(d)IRLに基づくアルゴリズムの収束と制御された交通力学の安定性はリャプノフ理論によって証明される。
最適制御則はパラメータ化され、計算複雑性を緩和するニューラルネットワーク(nn)によって近似される。
状態制約も入力制約も考慮されるが、モデル線形化は必要ない。
提案手法の有効性と有効性を検証するため, 数値実験およびシミュレーション実験を行った。
関連論文リスト
- Efficient and Robust Freeway Traffic Speed Estimation under Oblique Grid using Vehicle Trajectory Data [19.01488741469791]
斜め交通速度を正確に推定するための効率的でロバストな低ランクモデルを提案する。
提案手法は,TSEシナリオにおけるルート平均角誤差(RMSE)を最大12%改善する。
最先端のSOTA(State-of-the-art)メソッドよりも20倍以上高速に動作します。
論文 参考訳(メタデータ) (2024-11-06T15:13:40Z) - Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Reinforced Model Predictive Control via Trust-Region Quasi-Newton Policy Optimization [0.0]
超線形収束率を用いた政策最適化のための準ニュートン学習アルゴリズムを提案する。
シミュレーション研究は、提案したトレーニングアルゴリズムがデータ効率と精度で他のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T09:16:08Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。
制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。
RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文 参考訳(メタデータ) (2023-11-15T09:50:54Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。