論文の概要: Coalitional Bargaining via Reinforcement Learning: An Application to
Collaborative Vehicle Routing
- arxiv url: http://arxiv.org/abs/2310.17458v1
- Date: Thu, 26 Oct 2023 15:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:50:16.567456
- Title: Coalitional Bargaining via Reinforcement Learning: An Application to
Collaborative Vehicle Routing
- Title(参考訳): 強化学習による連立交渉:協調車両ルーティングへの応用
- Authors: Stephen Mak, Liming Xu, Tim Pearce, Michael Ostroumov, Alexandra
Brintrup
- Abstract要約: コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これによりスケールの経済が達成され、コスト、温室効果ガスの排出、道路渋滞が減少する。
しかし、どの会社が誰とパートナーし、それぞれの会社がどれだけの報酬を支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、協調車両ルーティング(英語版)の現実問題に対して計算することが困難である。
- 参考スコア(独自算出の注目度): 49.00137468773683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collaborative Vehicle Routing is where delivery companies cooperate by
sharing their delivery information and performing delivery requests on behalf
of each other. This achieves economies of scale and thus reduces cost,
greenhouse gas emissions, and road congestion. But which company should partner
with whom, and how much should each company be compensated? Traditional game
theoretic solution concepts, such as the Shapley value or nucleolus, are
difficult to calculate for the real-world problem of Collaborative Vehicle
Routing due to the characteristic function scaling exponentially with the
number of agents. This would require solving the Vehicle Routing Problem (an
NP-Hard problem) an exponential number of times. We therefore propose to model
this problem as a coalitional bargaining game where - crucially - agents are
not given access to the characteristic function. Instead, we implicitly reason
about the characteristic function, and thus eliminate the need to evaluate the
VRP an exponential number of times - we only need to evaluate it once. Our
contribution is that our decentralised approach is both scalable and considers
the self-interested nature of companies. The agents learn using a modified
Independent Proximal Policy Optimisation. Our RL agents outperform a strong
heuristic bot. The agents correctly identify the optimal coalitions 79% of the
time with an average optimality gap of 4.2% and reduction in run-time of 62%.
- Abstract(参考訳): コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これにより経済規模が拡大し、コスト、温室効果ガス排出量、道路渋滞が削減される。
しかし、どの会社が誰とパートナーし、それぞれの会社がいくらを支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、エージェント数と指数関数的にスケーリングする特性関数のため、協調車両ルーティングの現実的な問題を計算するのが困難である。
これは車両ルーティング問題(NP-Hard問題)を指数的な回数で解く必要がある。
そこで我々は,エージェントが特性関数にアクセスできないような連立交渉ゲームとして,この問題をモデル化することを提案する。
代わりに、私たちはその特性関数を暗黙的に推論し、それによってVRPを指数的な回数で評価する必要がなくなる。
私たちの貢献は、分散アプローチがスケーラブルであり、企業の利己的な性質を考慮することです。
エージェントは、修正された独立政策最適化を使用して学習する。
我々のRLエージェントは強いヒューリスティックなボットより優れています。
エージェントは、平均最適度差が4.2%、実行時間が62%の場合に、最適連立を79%正確に識別する。
関連論文リスト
- Fair collaborative vehicle routing: A deep multi-agent reinforcement
learning approach [49.00137468773683]
協力的な車両ルーティングは、キャリアがそれぞれの輸送要求を共有し、互いに代表して輸送要求を実行することで協力するときに発生する。
従来のゲーム理論解の概念は、特性関数がエージェントの数とともに指数関数的にスケールするので、計算に費用がかかる。
我々は,この問題を,深層マルチエージェント強化学習を用いて解決した連立交渉ゲームとしてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-10-26T15:42:29Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Conditional Expectation based Value Decomposition for Scalable On-Demand
Ride Pooling [11.988825533369683]
従来のライドプーリングアプローチは、現在のマッチが車/ドライバーの将来的な価値に与える影響を考慮していない。
我々は,新たなアプローチである条件付き期待値分解(CEVD)がNeurADPを最大9.76%上回っていることを示す。
論文 参考訳(メタデータ) (2021-12-01T15:53:16Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Equitable and Optimal Transport with Multiple Agents [48.17429789586127]
複数のコストがかかる場合に最適輸送問題を拡張します。
1つのディストリビューションを別のディストリビューションに転送する作業は、エージェント間で均等に共有することを目的としています。
別の視点では、目的がエージェント間で均等な商品を均質な選好に従って分配することである。
論文 参考訳(メタデータ) (2020-06-12T15:15:41Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。