論文の概要: BMG-Q: Localized Bipartite Match Graph Attention Q-Learning for Ride-Pooling Order Dispatch
- arxiv url: http://arxiv.org/abs/2501.13448v1
- Date: Thu, 23 Jan 2025 08:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:45.642587
- Title: BMG-Q: Localized Bipartite Match Graph Attention Q-Learning for Ride-Pooling Order Dispatch
- Title(参考訳): BMG-Q: Ride-Pooling Order Dispatchのための局所二部グラフアテンションQラーニング
- Authors: Yulong Hu, Siyuan Feng, Sen Li,
- Abstract要約: Localized Bipartite Match Graph Attention Q-Learning (BMG-Q)は、配車注文の配信に適した新しいマルチエージェント強化学習フレームワークである。
BMG-Qは何千もの車両エージェントの訓練と運用の両方において優れた性能を示した。
- 参考スコア(独自算出の注目度): 11.299633618239962
- License:
- Abstract: This paper introduces Localized Bipartite Match Graph Attention Q-Learning (BMG-Q), a novel Multi-Agent Reinforcement Learning (MARL) algorithm framework tailored for ride-pooling order dispatch. BMG-Q advances ride-pooling decision-making process with the localized bipartite match graph underlying the Markov Decision Process, enabling the development of novel Graph Attention Double Deep Q Network (GATDDQN) as the MARL backbone to capture the dynamic interactions among ride-pooling vehicles in fleet. Our approach enriches the state information for each agent with GATDDQN by leveraging a localized bipartite interdependence graph and enables a centralized global coordinator to optimize order matching and agent behavior using Integer Linear Programming (ILP). Enhanced by gradient clipping and localized graph sampling, our GATDDQN improves scalability and robustness. Furthermore, the inclusion of a posterior score function in the ILP captures the online exploration-exploitation trade-off and reduces the potential overestimation bias of agents, thereby elevating the quality of the derived solutions. Through extensive experiments and validation, BMG-Q has demonstrated superior performance in both training and operations for thousands of vehicle agents, outperforming benchmark reinforcement learning frameworks by around 10% in accumulative rewards and showing a significant reduction in overestimation bias by over 50%. Additionally, it maintains robustness amidst task variations and fleet size changes, establishing BMG-Q as an effective, scalable, and robust framework for advancing ride-pooling order dispatch operations.
- Abstract(参考訳): 本稿では、配車注文の配信に適した新しいマルチエージェント強化学習(MARL)アルゴリズムであるLocalized Bipartite Match Graph Attention Q-Learning(BMG-Q)を提案する。
BMG-Qは、マルコフ決定プロセスに基づく局所的な二部マッチンググラフで、MARLのバックボーンとして、新しいグラフ注意ダブルディープQネットワーク(GATDDQN)の開発を可能にする。
提案手法は,各エージェントの状態をGATDDQNで強化し,局所的な二部間依存性グラフを利用して,インテガー線形プログラミング(ILP)を用いて順序マッチングとエージェント動作を最適化するグローバルコーディネータを実現する。
勾配のクリッピングと局所的なグラフサンプリングによって強化されたGATDDQNは、スケーラビリティと堅牢性を改善します。
さらに、ICPに後部スコア関数を組み込むことで、オンライン探索・探索トレードオフを捕捉し、エージェントの潜在的過大評価バイアスを低減し、導出したソリューションの品質を高めることができる。
広範な実験と検証を通じて、BMG-Qは何千もの車両エージェントの訓練と操作において優れた性能を示し、ベンチマーク強化学習フレームワークを約10%の累積報酬で上回り、過大評価バイアスを50%以上削減した。
さらに、タスクのバリエーションや艦隊サイズの変化の中で堅牢性を維持し、BMG-Qを効果的でスケーラブルで堅牢なフレームワークとして確立し、配車注文の処理を進めています。
関連論文リスト
- Pre-trained Graphformer-based Ranking at Web-scale Search (Extended Abstract) [56.55728466130238]
本稿では,変換器の回帰能力をGNNのリンク予測強度と統合することを目的とした新しいMPGrafモデルを提案する。
我々は、MPGrafの性能を厳格に評価するために、大規模なオフラインおよびオンライン実験を行っている。
論文 参考訳(メタデータ) (2024-09-25T03:33:47Z) - Deep Contrastive Graph Learning with Clustering-Oriented Guidance [61.103996105756394]
グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。
モデルはGCNを適用するために初期グラフを事前に推定する。
一般的なデータクラスタリングには,Deep Contrastive Graph Learning (DCGL)モデルが提案されている。
論文 参考訳(メタデータ) (2024-02-25T07:03:37Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Self-supervised Heterogeneous Graph Pre-training Based on Structural
Clustering [20.985559149384795]
SHGP(Self-supervised Heterogeneous Graph Pre-training approach)を提案する。
肯定的な例や否定的な例を生成する必要はない。
最先端の教師なしベースラインや半教師なしベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-10-19T10:55:48Z) - A Cooperation Graph Approach for Multiagent Sparse Reward Reinforcement
Learning [7.2972297703292135]
マルチエージェント強化学習(MARL)は複雑な協調作業を解くことができる。
本稿では、協調グラフ(CG)と呼ばれるグラフネットワークを設計する。
協調グラフマルチエージェント強化学習(CG-MARL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-05T06:32:16Z) - Graph Convolutional Reinforcement Learning for Collaborative Queuing
Agents [6.3120870639037285]
DGNとして知られる新しいグラフ畳み込み型マルチエージェント強化学習手法を提案する。
DGNベースのアプローチは,すべてのシナリオにおいて厳格なスループットと遅延要件を満たすことを示す。
論文 参考訳(メタデータ) (2022-05-24T11:53:20Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Diversified Multiscale Graph Learning with Graph Self-Correction [55.43696999424127]
2つのコア成分を組み込んだ多次元グラフ学習モデルを提案します。
情報埋め込みグラフを生成するグラフ自己補正(GSC)機構、および入力グラフの包括的な特性評価を達成するために多様性ブースト正規化(DBR)。
一般的なグラフ分類ベンチマークの実験は、提案されたGSCメカニズムが最先端のグラフプーリング方法よりも大幅に改善されることを示しています。
論文 参考訳(メタデータ) (2021-03-17T16:22:24Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。