論文の概要: Multi-Agent Reinforcement Learning for Markov Routing Games: A New
Modeling Paradigm For Dynamic Traffic Assignment
- arxiv url: http://arxiv.org/abs/2011.10915v2
- Date: Mon, 28 Feb 2022 01:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 12:19:13.560961
- Title: Multi-Agent Reinforcement Learning for Markov Routing Games: A New
Modeling Paradigm For Dynamic Traffic Assignment
- Title(参考訳): マルコフルーティングゲームのためのマルチエージェント強化学習:動的トラフィック割り当てのための新しいモデリングパラダイム
- Authors: Zhenyu Shou, Xu Chen, Yongjie Fu, Xuan Di
- Abstract要約: 我々は,各エージェントが自身の経路選択ポリシーを学習し,更新するマルコフルーティングゲーム(MRG)を開発した。
知的エージェントのルーティング動作は、予測動的ユーザ均衡という古典的な概念に収束することが示されている。
- 参考スコア(独自算出の注目度): 11.093194714316434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to develop a paradigm that models the learning behavior of
intelligent agents (including but not limited to autonomous vehicles, connected
and automated vehicles, or human-driven vehicles with intelligent navigation
systems where human drivers follow the navigation instructions completely) with
a utility-optimizing goal and the system's equilibrating processes in a routing
game among atomic selfish agents. Such a paradigm can assist policymakers in
devising optimal operational and planning countermeasures under both normal and
abnormal circumstances. To this end, we develop a Markov routing game (MRG) in
which each agent learns and updates her own en-route path choice policy while
interacting with others in transportation networks. To efficiently solve MRG,
we formulate it as multi-agent reinforcement learning (MARL) and devise a mean
field multi-agent deep Q learning (MF-MA-DQL) approach that captures the
competition among agents. The linkage between the classical DUE paradigm and
our proposed Markov routing game (MRG) is discussed. We show that the routing
behavior of intelligent agents is shown to converge to the classical notion of
predictive dynamic user equilibrium (DUE) when traffic environments are
simulated using dynamic loading models (DNL). In other words, the MRG depicts
DUEs assuming perfect information and deterministic environments propagated by
DNL models. Four examples are solved to illustrate the algorithm efficiency and
consistency between DUE and the MRG equilibrium, on a simple network without
and with spillback, the Ortuzar Willumsen (OW) Network, and a real-world
network near Columbia University's campus in Manhattan of New York City.
- Abstract(参考訳): 本稿では,知的エージェントの学習行動(自律走行車,連結・自動走行車,人間運転者がナビゲーション指示を完全に従うインテリジェントナビゲーションシステムを含む)を,実用性最適化目標と,原子自家エージェント間のルーティングゲームにおけるシステムの平衡過程をモデル化するパラダイムを開発することを目的とする。
このようなパラダイムは、政策立案者が正常かつ異常な状況下で最適な運用・計画対策を策定するのを支援することができる。
そこで我々は,交通ネットワークにおいて他者と交流しながら,各エージェントが自身の経路選択ポリシーを学習し,更新するマルコフルーティングゲーム(MRG)を開発した。
MRGを効率的に解くために,MARL(Multi-agent reinforcement learning)として定式化し,エージェント間の競合を捉えるMF-MA-DQL(MF-MA-DQL)アプローチを考案する。
古典的DUEパラダイムと提案したマルコフルーティングゲーム(MRG)の関連について論じる。
知的エージェントのルーティング挙動は,動的負荷モデル(dnl)を用いてトラヒック環境をシミュレートした場合に,従来の予測動的ユーザ均衡(due)の概念に収束することが示されている。
言い換えれば、MRGはDUEをDNLモデルによって伝播される完全な情報と決定論的環境と仮定している。
DUE と MRG 平衡のアルゴリズム効率と整合性を示す4つの例が,マンハッタンのコロンビア大学キャンパス付近にあるオルトゥザー・ウィルンセン(OW)ネットワーク(OW)ネットワーク(英語版)と実世界ネットワーク(英語版)の単純なネットワーク上で解決されている。
関連論文リスト
- End-to-End Steering for Autonomous Vehicles via Conditional Imitation Co-Learning [1.5020330976600735]
この課題に対処するために、条件付き模倣コラーニング(CIC)アプローチを導入する。
そこで我々は, 回帰と分類のギャップを埋めるために, 分類-回帰ハイブリッド損失を用いて, 操舵回帰問題を分類として提案する。
本モデルは,CIL法と比較して,見えない環境下での自律走行の成功率を平均62%向上させることを実証した。
論文 参考訳(メタデータ) (2024-11-25T06:37:48Z) - Planning-Aware Diffusion Networks for Enhanced Motion Forecasting in Autonomous Driving [0.0]
Planning-Integrated Forecasting Model (PIFM)は、脳における意思決定とマルチエージェント協調を管理する神経機構にインスパイアされた新しいフレームワークである。
PIFMはシナリオ内の全てのエージェントの将来の軌跡を予測することができる。
このアーキテクチャは、外部刺激やその他のエージェントの行動に基づいた予測を動的に調整する脳の手法と平行して、モデルの透明性を高める。
論文 参考訳(メタデータ) (2024-10-25T15:44:51Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Deep Interactive Motion Prediction and Planning: Playing Games with
Motion Prediction Models [162.21629604674388]
本研究は,新しい対話型マルチエージェントニューラルネットワークポリシを予測モデルの一部として使用するゲーム理論モデル予測制御器(MPC)を提案する。
本手法の成功の基礎は,周辺エージェントの状態と地図情報に基づいて車両を操縦できる,新しいマルチエージェントポリシーネットワークの設計である。
論文 参考訳(メタデータ) (2022-04-05T17:58:18Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Graph Neural Network Reinforcement Learning for Autonomous
Mobility-on-Demand Systems [42.08603087208381]
我々は、AMoD制御問題は自然にノードワイドな意思決定問題として位置づけられていると論じる。
グラフニューラルネットワークによるAMoDシステムの再バランスを制御するための深層強化学習フレームワークを提案する。
重要可搬性タスクに直面した場合、学習したポリシーがゼロショット転送能力を有望に示す方法を示す。
論文 参考訳(メタデータ) (2021-04-23T06:42:38Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z) - Multi-Agent Routing Value Iteration Network [88.38796921838203]
疎結合グラフの学習値に基づいてマルチエージェントルーティングを行うことができるグラフニューラルネットワークに基づくモデルを提案する。
最大25ノードのグラフ上で2つのエージェントでトレーニングしたモデルでは,より多くのエージェントやノードを持つ状況に容易に一般化できることが示されている。
論文 参考訳(メタデータ) (2020-07-09T22:16:45Z) - Traffic Agent Trajectory Prediction Using Social Convolution and
Attention Mechanism [57.68557165836806]
本稿では,自律走行車周辺における標的エージェントの軌道予測モデルを提案する。
対象エージェントの履歴トラジェクトリをアテンションマスクとしてエンコードし、ターゲットエージェントとその周辺エージェント間の対話関係をエンコードするソーシャルマップを構築する。
提案手法の有効性を検証するため,提案手法を公開データセット上の複数の手法と比較し,20%の誤差低減を実現した。
論文 参考訳(メタデータ) (2020-07-06T03:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。