論文の概要: Progression Cognition Reinforcement Learning with Prioritized Experience
for Multi-Vehicle Pursuit
- arxiv url: http://arxiv.org/abs/2306.05016v1
- Date: Thu, 8 Jun 2023 08:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:33:36.611129
- Title: Progression Cognition Reinforcement Learning with Prioritized Experience
for Multi-Vehicle Pursuit
- Title(参考訳): 複数車両における優先体験による進歩認知強化学習
- Authors: Xinhang Li, Yiying Yang, Zheng Yuan, Zhe Wang, Qinwen Wang, Chen Xu,
Lei Li, Jianhua He and Lin Zhang
- Abstract要約: 本稿では,都市交通現場におけるMVPの優先体験を考慮した認知強化学習を提案する。
PEPCRL-MVPは優先順位付けネットワークを使用して、各MARLエージェントのパラメータに従ってグローバルエクスペリエンス再生バッファの遷移を評価する。
PEPCRL-MVPはTD3-DMAPよりも3.95%効率を向上し、その成功率はMADDPGよりも34.78%高い。
- 参考スコア(独自算出の注目度): 19.00359253910912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-vehicle pursuit (MVP) such as autonomous police vehicles pursuing
suspects is important but very challenging due to its mission and safety
critical nature. While multi-agent reinforcement learning (MARL) algorithms
have been proposed for MVP problem in structured grid-pattern roads, the
existing algorithms use randomly training samples in centralized learning,
which leads to homogeneous agents showing low collaboration performance. For
the more challenging problem of pursuing multiple evading vehicles, these
algorithms typically select a fixed target evading vehicle for pursuing
vehicles without considering dynamic traffic situation, which significantly
reduces pursuing success rate. To address the above problems, this paper
proposes a Progression Cognition Reinforcement Learning with Prioritized
Experience for MVP (PEPCRL-MVP) in urban multi-intersection dynamic traffic
scenes. PEPCRL-MVP uses a prioritization network to assess the transitions in
the global experience replay buffer according to the parameters of each MARL
agent. With the personalized and prioritized experience set selected via the
prioritization network, diversity is introduced to the learning process of
MARL, which can improve collaboration and task related performance.
Furthermore, PEPCRL-MVP employs an attention module to extract critical
features from complex urban traffic environments. These features are used to
develop progression cognition method to adaptively group pursuing vehicles.
Each group efficiently target one evading vehicle in dynamic driving
environments. Extensive experiments conducted with a simulator over
unstructured roads of an urban area show that PEPCRL-MVP is superior to other
state-of-the-art methods. Specifically, PEPCRL-MVP improves pursuing efficiency
by 3.95% over TD3-DMAP and its success rate is 34.78% higher than that of
MADDPG. Codes are open sourced.
- Abstract(参考訳): 被疑者を追尾する自律警察車両のような多車両追尾(MVP)は、その任務と安全上重要な性質のために重要であるが、非常に難しい。
構造化グリッドパターン道路におけるMVP問題に対してマルチエージェント強化学習(MARL)アルゴリズムが提案されているが、既存のアルゴリズムでは集中学習においてランダムにサンプルを訓練し、共同作業性能が低い均質なエージェントを生成する。
複数の回避車両を追尾するより困難な問題に対して、これらのアルゴリズムは一般的に、動的交通状況を考慮していない固定目標回避車両を選択する。
以上の課題に対処するために,都市多区間動画像におけるMVP(PEPCRL-MVP)を用いたプログレクション認知強化学習を提案する。
PEPCRL-MVPは優先順位付けネットワークを使用して、各MARLエージェントのパラメータに従ってグローバルエクスペリエンス再生バッファの遷移を評価する。
優先順位付けネットワークを介して選択されたパーソナライズおよび優先順位付けされた体験セットにより、marlの学習プロセスに多様性が導入され、コラボレーションとタスク関連パフォーマンスが向上する。
さらにpepcrl-mvpは注意モジュールを用いて複雑な都市交通環境から重要な特徴を抽出する。
これらの特徴は、追従車両を適応的にグループ化する進歩認知法を開発するために用いられる。
各グループは、動的運転環境において1台の回避車両を効率的に目標とする。
都市部における非構造道路上でのシミュレーション実験により,PEPCRL-MVPが他の最先端手法よりも優れていることを示す。
具体的には、PEPCRL-MVPはTD3-DMAPよりも3.95%効率を改善し、その成功率はMADDPGよりも34.78%高い。
コードはオープンソースである。
関連論文リスト
- Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - Graded-Q Reinforcement Learning with Information-Enhanced State Encoder
for Hierarchical Collaborative Multi-Vehicle Pursuit [11.195170949292496]
インテリジェントトランスポーテーションシステム(ITS)における多車追跡(MVP)の話題になりつつある。
本稿では,この階層的協調探索問題に対処するために,情報強化状態エンコーダ(GQRL-IESE)フレームワークを用いたグレードQ強化学習を提案する。
GQRL-IESEでは、車両の追従効率を向上させるための意思決定を容易にするために、協調的なグレードQスキームが提案されている。
論文 参考訳(メタデータ) (2022-10-24T16:35:34Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - A Deep Reinforcement Learning Approach for Traffic Signal Control
Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。
本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文 参考訳(メタデータ) (2021-07-13T14:11:04Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z) - Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving [35.44498286245894]
本稿では,効率的なサンプリングに基づく最大エントロピー逆強化学習(IRL)アルゴリズムを提案する。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
論文 参考訳(メタデータ) (2020-06-22T01:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。