論文の概要: Hybrid Multi-agent Deep Reinforcement Learning for Autonomous Mobility
on Demand Systems
- arxiv url: http://arxiv.org/abs/2212.07313v2
- Date: Wed, 10 May 2023 16:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 17:10:18.620543
- Title: Hybrid Multi-agent Deep Reinforcement Learning for Autonomous Mobility
on Demand Systems
- Title(参考訳): 自律移動型オンデマンドシステムのためのハイブリッド多エージェント深層強化学習
- Authors: Tobias Enders, James Harrison, Marco Pavone, Maximilian Schiffer
- Abstract要約: 本稿では,自律型モビリティ・オン・デマンドシステムの利益を最大化する運用者に対して,積極的要求の割当と拒否決定を行うというシーケンシャルな意思決定問題を考察する。
我々はマルコフ決定過程としてこの問題を定式化し、予測制御ポリシを得るために、マルチエージェントのソフトアクター・クリティカルと重み付きバイパートイトマッチングを組み合わせた新しい組み合わせを提案する。
- 参考スコア(独自算出の注目度): 31.23491481430466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the sequential decision-making problem of making proactive
request assignment and rejection decisions for a profit-maximizing operator of
an autonomous mobility on demand system. We formalize this problem as a Markov
decision process and propose a novel combination of multi-agent Soft
Actor-Critic and weighted bipartite matching to obtain an anticipative control
policy. Thereby, we factorize the operator's otherwise intractable action
space, but still obtain a globally coordinated decision. Experiments based on
real-world taxi data show that our method outperforms state of the art
benchmarks with respect to performance, stability, and computational
tractability.
- Abstract(参考訳): 本稿では,自律移動型オンデマンドシステムの利益最大化運用者に対して,積極的な要求割り当てと拒否決定を行うことによる意思決定の逐次問題を考える。
本稿では,マルコフ決定過程としてこの問題を定式化し,マルチエージェント・ソフト・アクタ・クリティックと重み付き2部マッチングの新たな組み合わせを提案する。
これにより、演算子の難解な動作空間を分解するが、それでもグローバルに協調した決定が得られる。
実世界のタクシーデータに基づく実験により,我々の手法は,性能,安定性,計算的トラクタビリティに関して,技術ベンチマークの状態を上回ります。
関連論文リスト
- Dynamic Demand Management for Parcel Lockers [0.0]
本研究では,逐次決定分析と強化学習に根ざしたアルゴリズム手法を編成するソリューションフレームワークを開発する。
これらのテクニックを組み合わせるための革新的なアプローチは、この2つの意思決定タイプ間の強い相互関係に対処する上で有効です。
本手法は筋電図のベンチマークを13.7%上回り、業界に触発された政策を12.6%上回る結果となった。
論文 参考訳(メタデータ) (2024-09-08T11:38:48Z) - Multi-Agent Soft Actor-Critic with Global Loss for Autonomous Mobility-on-Demand Fleet Control [1.9503475832401784]
自律型モビリティ・オン・デマンドシステムの利益を最大化する演算子に対する逐次決定問題について検討する。
重み付きバイパルタイトマッチングと組み合わせたマルチエージェントソフトアクター・クライブアルゴリズムを用いる。
このアプローチは、ディスパッチで最大12.9%、統合された再バランシングで最大38.9%、最先端のベンチマークよりも優れています。
論文 参考訳(メタデータ) (2024-04-10T13:49:20Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Rational Decision-Making Agent with Internalized Utility Judgment [91.80700126895927]
大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。
本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。
ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-24T03:11:45Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Off-line approximate dynamic programming for the vehicle routing problem
with stochastic customers and demands via decentralized decision-making [0.0]
本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の変種について検討する。
目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。
本稿では,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-21T14:28:09Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。