論文の概要: Deep Reinforcement Learning for Dynamic Origin-Destination Matrix Estimation in Microscopic Traffic Simulations Considering Credit Assignment
- arxiv url: http://arxiv.org/abs/2511.06229v1
- Date: Sun, 09 Nov 2025 05:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.823773
- Title: Deep Reinforcement Learning for Dynamic Origin-Destination Matrix Estimation in Microscopic Traffic Simulations Considering Credit Assignment
- Title(参考訳): 信用割当てを考慮した微視的交通シミュレーションにおける動的原位置行列推定のための深部強化学習
- Authors: Donggyu Min, Seongjin Choi, Dong-Kyu Kim,
- Abstract要約: 我々は,DODE問題をマルコフ決定過程(MDP)として定式化し,モデルフリー深部強化学習(DRL)を適用した新しい枠組みを提案する。
実験の結果,提案手法は平均2乗誤差(MSE)を43.2%削減できることがわかった。
- 参考スコア(独自算出の注目度): 1.4947505129441463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper focuses on dynamic origin-destination matrix estimation (DODE), a crucial calibration process necessary for the effective application of microscopic traffic simulations. The fundamental challenge of the DODE problem in microscopic simulations stems from the complex temporal dynamics and inherent uncertainty of individual vehicle dynamics. This makes it highly challenging to precisely determine which vehicle traverses which link at any given moment, resulting in intricate and often ambiguous relationships between origin-destination (OD) matrices and their contributions to resultant link flows. This phenomenon constitutes the credit assignment problem, a central challenge addressed in this study. We formulate the DODE problem as a Markov Decision Process (MDP) and propose a novel framework that applies model-free deep reinforcement learning (DRL). Within our proposed framework, the agent learns an optimal policy to sequentially generate OD matrices, refining its strategy through direct interaction with the simulation environment. The proposed method is validated on the Nguyen-Dupuis network using SUMO, where its performance is evaluated against ground-truth link flows aggregated at 5-minute intervals over a 30-minute horizon. Experimental results demonstrate that our approach achieves a 43.2% reduction in mean squared error (MSE) compared to the best-performing conventional baseline. By reframing DODE as a sequential decision-making problem, our approach addresses the credit assignment challenge through its learned policy, thereby overcoming the limitations of conventional methods and proposing a novel framework for calibration of microscopic traffic simulations.
- Abstract(参考訳): 本稿では, 微視的トラフィックシミュレーションの有効利用に必要なキャリブレーションプロセスであるDODE(Dynamic Origin-Detination matrix Estimation)に焦点を当てた。
顕微鏡シミュレーションにおけるDODE問題の根本的な課題は、複雑な時間力学と個々の車両力学の固有の不確実性に起因する。
これにより、任意の瞬間にどの車両がリンクするかを正確に決定することが難しくなり、結果として、原点決定(OD)行列と結果のリンクフローへの寄与との間に複雑で曖昧な関係が生じる。
この現象は信用割当問題を構成するものであり、この研究で論じられている中心的な課題である。
我々は,DODE問題をマルコフ決定過程(MDP)として定式化し,モデルフリーな深層強化学習(DRL)を適用した新しいフレームワークを提案する。
提案フレームワーク内では,OD行列を逐次生成する最適なポリシーを学習し,シミュレーション環境と直接対話することでその戦略を精査する。
提案手法は,SUMOを用いてNguyen-Dupuisネットワーク上で検証され,30分間の地平線上での5分間隔で集約された地中トルース流に対して性能評価を行う。
実験の結果,提案手法は平均2乗誤差(MSE)を43.2%削減できることがわかった。
そこで本研究では,DODEを逐次意思決定問題とすることで,従来の手法の限界を克服し,微視的トラフィックシミュレーションのキャリブレーションのための新たな枠組みを提案する。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Dynamic Origin-Destination Matrix Estimation in Urban Traffic Networks [0.05735035463793007]
この問題を二段階最適化問題としてモデル化する。
内部レベルでは、暫定的な旅行需要を前提として、動的な交通割当問題を解決し、利用者の出身地と目的地間のルーティングを決定する。
外層部では,交通ネットワーク内のセンサによって測定された車両数と内層部で発生したカウンタの差を最小限に抑えることを目的として,旅行数とその出発点および目的地の調整を行う。
論文 参考訳(メタデータ) (2022-01-31T21:33:46Z) - Dynamic Mode Decomposition in Adaptive Mesh Refinement and Coarsening
Simulations [58.720142291102135]
動的モード分解(DMD)はコヒーレントなスキームを抽出する強力なデータ駆動方式である。
本稿では,異なるメッシュトポロジと次元の観測からDMDを抽出する戦略を提案する。
論文 参考訳(メタデータ) (2021-04-28T22:14:25Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。