論文の概要: A Differentiated Reward Method for Reinforcement Learning based Multi-Vehicle Cooperative Decision-Making Algorithms
- arxiv url: http://arxiv.org/abs/2502.00352v1
- Date: Sat, 01 Feb 2025 07:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:56:17.349431
- Title: A Differentiated Reward Method for Reinforcement Learning based Multi-Vehicle Cooperative Decision-Making Algorithms
- Title(参考訳): 強化学習に基づく複数車両協調決定アルゴリズムの微分リワード法
- Authors: Ye Han, Lijun Zhang, Dejian Meng,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 状態-動作-回帰フィードバックループを通じて, 多車両協調運転戦略を最適化する大きな可能性を示す。
本稿では、状態遷移勾配情報を報酬設計に組み込んだ定常遷移系に基づく微分報酬法を提案する。
- 参考スコア(独自算出の注目度): 11.53293198806926
- License:
- Abstract: Reinforcement learning (RL) shows great potential for optimizing multi-vehicle cooperative driving strategies through the state-action-reward feedback loop, but it still faces challenges such as low sample efficiency. This paper proposes a differentiated reward method based on steady-state transition systems, which incorporates state transition gradient information into the reward design by analyzing traffic flow characteristics, aiming to optimize action selection and policy learning in multi-vehicle cooperative decision-making. The performance of the proposed method is validated in RL algorithms such as MAPPO, MADQN, and QMIX under varying autonomous vehicle penetration. The results show that the differentiated reward method significantly accelerates training convergence and outperforms centering reward and others in terms of traffic efficiency, safety, and action rationality. Additionally, the method demonstrates strong scalability and environmental adaptability, providing a novel approach for multi-agent cooperative decision-making in complex traffic scenarios.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、状態-動作-回帰フィードバックループを通じて、複数車両の協調運転戦略を最適化する大きな可能性を示しているが、サンプル効率の低下などの課題に直面している。
本稿では,複数車両協調意思決定における行動選択と政策学習の最適化を目的とした交通流特性の分析により,状態遷移勾配情報を報酬設計に組み込んだ定常遷移システムに基づく微分報酬方式を提案する。
提案手法の性能は,MAPPO,MADQN,QMIXなどのRLアルゴリズムにおいて,自律走行車への侵入の異なる条件下で検証される。
その結果, 差別化報酬法は, 交通効率, 安全性, 行動合理性の観点から, トレーニングの収束を著しく促進し, 報奨等の中心的効果を著しく向上させることがわかった。
さらに, この手法は, 複雑な交通シナリオにおいて, 複数エージェントによる協調的意思決定のための新しいアプローチを提供することにより, 高いスケーラビリティと環境適応性を示す。
関連論文リスト
- A Value Based Parallel Update MCTS Method for Multi-Agent Cooperative Decision Making of Connected and Automated Vehicles [9.840325772591024]
本稿では,マルチエージェント・マルコフゲームに対する並列更新によるモンテカルロ木探索(MCTS)手法を提案する。
部分定常交通流における多車両共同動作空間の並列動作を解析することにより、並列更新法は潜在的危険な動作を迅速に排除することができる。
論文 参考訳(メタデータ) (2024-09-20T03:13:01Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - Graph Convolution-Based Deep Reinforcement Learning for Multi-Agent
Decision-Making in Mixed Traffic Environments [12.34509371288594]
本研究は,さまざまなグラフ強化学習(GRL)手法による意思決定を実現するためのフレームワークを提案する。
いくつかのGRLアプローチを要約し、提案したフレームワークで実装する。
結果は、インテリジェント輸送シナリオにおけるGRLアプローチの特徴を比較するために、複数の視点と次元で分析される。
論文 参考訳(メタデータ) (2022-01-30T10:09:43Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z) - Reinforcement Learning to Optimize the Logistics Distribution Routes of
Unmanned Aerial Vehicle [0.0]
本稿では,複数のノフライゾーンを含む複雑な環境下でUAVの経路計画を実現するための改良手法を提案する。
その結果,このような複雑な状況に適応するモデルの有効性と効率性が示された。
論文 参考訳(メタデータ) (2020-04-21T09:42:03Z) - Efficiency and Equity are Both Essential: A Generalized Traffic Signal
Controller with Deep Reinforcement Learning [25.21831641893209]
本稿では,信号制御系に対して,最適化されたトラフィックフローを目的とした深層強化学習を用いた学習ポリシーを提案する。
提案手法は,効率と公平性を同時に考慮した報酬関数の新規な定式化を用いている。
シミュレーションおよび実世界のデータを用いた実験により,提案アルゴリズムが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-03-09T11:34:52Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。