論文の概要: Graded-Q Reinforcement Learning with Information-Enhanced State Encoder
for Hierarchical Collaborative Multi-Vehicle Pursuit
- arxiv url: http://arxiv.org/abs/2210.13470v1
- Date: Mon, 24 Oct 2022 16:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:37:37.969610
- Title: Graded-Q Reinforcement Learning with Information-Enhanced State Encoder
for Hierarchical Collaborative Multi-Vehicle Pursuit
- Title(参考訳): 階層的協調型多車追従のための情報エンハンス状態エンコーダを用いたグレードドドq強化学習
- Authors: Yiying Yang, Xinhang Li, Zheng Yuan, Qinwen Wang, Chen Xu, Lin Zhang
- Abstract要約: インテリジェントトランスポーテーションシステム(ITS)における多車追跡(MVP)の話題になりつつある。
本稿では,この階層的協調探索問題に対処するために,情報強化状態エンコーダ(GQRL-IESE)フレームワークを用いたグレードQ強化学習を提案する。
GQRL-IESEでは、車両の追従効率を向上させるための意思決定を容易にするために、協調的なグレードQスキームが提案されている。
- 参考スコア(独自算出の注目度): 11.195170949292496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multi-vehicle pursuit (MVP), as a problem abstracted from various
real-world scenarios, is becoming a hot research topic in Intelligent
Transportation System (ITS). The combination of Artificial Intelligence (AI)
and connected vehicles has greatly promoted the research development of MVP.
However, existing works on MVP pay little attention to the importance of
information exchange and cooperation among pursuing vehicles under the complex
urban traffic environment. This paper proposed a graded-Q reinforcement
learning with information-enhanced state encoder (GQRL-IESE) framework to
address this hierarchical collaborative multi-vehicle pursuit (HCMVP) problem.
In the GQRL-IESE, a cooperative graded Q scheme is proposed to facilitate the
decision-making of pursuing vehicles to improve pursuing efficiency. Each
pursuing vehicle further uses a deep Q network (DQN) to make decisions based on
its encoded state. A coordinated Q optimizing network adjusts the individual
decisions based on the current environment traffic information to obtain the
global optimal action set. In addition, an information-enhanced state encoder
is designed to extract critical information from multiple perspectives and uses
the attention mechanism to assist each pursuing vehicle in effectively
determining the target. Extensive experimental results based on SUMO indicate
that the total timestep of the proposed GQRL-IESE is less than other methods on
average by 47.64%, which demonstrates the excellent pursuing efficiency of the
GQRL-IESE. Codes are outsourced in https://github.com/ANT-ITS/GQRL-IESE.
- Abstract(参考訳): 様々な現実のシナリオから抽象化された問題として、多車追跡(MVP)は、インテリジェントトランスポーテーションシステム(ITS)においてホットな研究トピックになりつつある。
人工知能(ai)とコネクテッドカーの組み合わせは、mvpの研究開発を大いに推進してきた。
しかし、mvpの既存事業は、複雑な都市交通環境下での情報交換と協調の重要性にほとんど注意を払わなかった。
本稿では,この階層的協調型マルチ車両追従(HCMVP)問題に対処するため,GQRL-IESE(Information-enhanced State Encoder)フレームワークを用いたグレードQ強化学習を提案する。
GQRL-IESEでは、車両の追従効率を向上させるための意思決定を容易にするために、協調的なグレードQスキームが提案されている。
各追撃車両はさらにディープqネットワーク(dqn)を使用して、エンコードされた状態に基づいて意思決定を行う。
協調q最適化ネットワークは、現在の環境交通情報に基づいて個々の決定を調整し、グローバル最適動作セットを得る。
さらに、複数の視点から臨界情報を抽出する情報強調状態符号化器を設計し、注目機構を用いて各追尾車両を支援して目標を効果的に決定する。
SUMOに基づく大規模な実験結果によると、提案したGQRL-IESEの総時間は平均47.64%以下であり、GQRL-IESEの優れた追従効率を示す。
コードはhttps://github.com/ANT-ITS/GQRL-IESEで公開されている。
関連論文リスト
- SPformer: A Transformer Based DRL Decision Making Method for Connected Automated Vehicles [9.840325772591024]
本稿ではトランスフォーマーと強化学習アルゴリズムに基づくCAV意思決定アーキテクチャを提案する。
学習可能なポリシートークンは、多車連携ポリシーの学習媒体として使用される。
我々のモデルは交通シナリオにおける車両の全ての状態情報をうまく活用することができる。
論文 参考訳(メタデータ) (2024-09-23T15:16:35Z) - Optimizing Age of Information in Vehicular Edge Computing with Federated Graph Neural Network Multi-Agent Reinforcement Learning [44.17644657738893]
本稿では,データ更新の鍵となる情報時代(AoI)に着目し,RSU通信資源制約下での車両のタスクオフロード問題について検討する。
本稿では,Federated Graph Neural Network Multi-Agent Reinforcement Learning (FGNN-MADRL) と名付けたグラフニューラルネットワーク(GNN)を組み合わせた分散分散学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-01T15:37:38Z) - Progression Cognition Reinforcement Learning with Prioritized Experience
for Multi-Vehicle Pursuit [19.00359253910912]
本稿では,都市交通現場におけるMVPの優先体験を考慮した認知強化学習を提案する。
PEPCRL-MVPは優先順位付けネットワークを使用して、各MARLエージェントのパラメータに従ってグローバルエクスペリエンス再生バッファの遷移を評価する。
PEPCRL-MVPはTD3-DMAPよりも3.95%効率を向上し、その成功率はMADDPGよりも34.78%高い。
論文 参考訳(メタデータ) (2023-06-08T08:10:46Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - Integrated Decision and Control for High-Level Automated Vehicles by
Mixed Policy Gradient and Its Experiment Verification [10.393343763237452]
本稿では,IDC(Integrated Decision and Control)に基づく自己進化型意思決定システムを提案する。
制約付き混合ポリシー勾配 (CMPG) と呼ばれるRLアルゴリズムは、IDCの駆動ポリシーを継続的に更新するために提案される。
実験結果から, モデルに基づく手法よりも運転能力の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:58:41Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - Deep Reinforcement Learning Based Multi-Access Edge Computing Schedule
for Internet of Vehicle [16.619839349229437]
車両用インターネット(IoV)の最大品質(QoE)を維持した無線ネットワークサービスを実現するためのUAV支援手法を提案する。
本稿では,M-AGCDRL(Multi-Agent Graph Convolutional Deep Reinforcement Learning)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-15T17:14:58Z) - Vehicular Cooperative Perception Through Action Branching and Federated
Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。
車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。
その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文 参考訳(メタデータ) (2020-12-07T02:09:15Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。