論文の概要: Where the Action is: Let's make Reinforcement Learning for Stochastic
Dynamic Vehicle Routing Problems work!
- arxiv url: http://arxiv.org/abs/2103.00507v1
- Date: Sun, 28 Feb 2021 13:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 01:37:08.956653
- Title: Where the Action is: Let's make Reinforcement Learning for Stochastic
Dynamic Vehicle Routing Problems work!
- Title(参考訳): アクションとは何か: 確率的動的車両ルーティング問題に対する強化学習を機能させよう!
- Authors: Florentin D Hildebrandt, Barrett Thomas, Marlin W Ulmer
- Abstract要約: リアルタイム、インスタントモビリティ、デリバリーサービスの需要が増加している。
動的車両ルーティング問題(SDVRP)には、予測リアルタイムルーティングアクションが必要です。
sdvrpsの解決には,両コミュニティの共同作業が必要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a paradigm-shift in urban logistic services in the last years;
demand for real-time, instant mobility and delivery services grows. This poses
new challenges to logistic service providers as the underlying stochastic
dynamic vehicle routing problems (SDVRPs) require anticipatory real-time
routing actions. Searching the combinatorial action space for efficient routing
actions is by itself a complex task of mixed-integer programming (MIP)
well-known by the operations research community. This complexity is now
multiplied by the challenge of evaluating such actions with respect to their
effectiveness given future dynamism and uncertainty, a potentially ideal case
for reinforcement learning (RL) well-known by the computer science community.
For solving SDVRPs, joint work of both communities is needed, but as we show,
essentially non-existing. Both communities focus on their individual strengths
leaving potential for improvement. Our survey paper highlights this potential
in research originating from both communities. We point out current obstacles
in SDVRPs and guide towards joint approaches to overcome them.
- Abstract(参考訳): 近年、都市物流サービスにはパラダイムシフトがあり、リアルタイム、インスタントモビリティ、デリバリーサービスの需要が増加しています。
これはロジスティックサービスプロバイダにとって、基礎となる確率動的車両ルーティング問題(SDVRP)が予測されたリアルタイムルーティングアクションを必要とするため、新たな課題となる。
効率的なルーティングアクションのための組合せアクション空間の探索自体は、オペレーション研究コミュニティでよく知られた混合整数プログラミング(mip)の複雑なタスクである。
この複雑さは、未来のダイナミズムと不確実性を考えると、そのような行動の有効性を評価するという課題によって乗じられ、コンピュータサイエンスコミュニティでよく知られた強化学習(rl)の理想的なケースである。
SDVRPの解決には、両コミュニティの共同作業が必要であるが、私たちが示すように、基本的には存在しない。
双方のコミュニティは個々の強みに集中し、改善の可能性を残します。
本研究は,両コミュニティを起源とする研究の可能性を強調する。
SDVRPの現在の障害を指摘し、それらを克服するための共同アプローチを導きます。
関連論文リスト
- Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems [13.083156894368532]
自転車シェアリングシステムは、交通渋滞を緩和し、より健康的なライフスタイルを促進する上で重要な役割を担っている。
本研究では,車両群によるリアルタイムリバランス問題に対処するための新しいアプローチを提案する。
在庫とルーティングの決定を分離する、二重ポリシー強化学習アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-06-02T21:05:23Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System [11.237099288412558]
自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞と健康的な生活様式の緩和に貢献している。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
本稿では,複数の車両との動的再バランス問題に対する時間的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T23:46:42Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - An Online Approach to Solve the Dynamic Vehicle Routing Problem with
Stochastic Trip Requests for Paratransit Services [5.649212162857776]
動的車両ルーティング問題(DVRP)を解決するための完全オンライン手法を提案する。
時間的に疎いため、パラトランジットリクエストのバッチ化は困難である。
我々はモンテカルロ木探索を用いて任意の状態に対する行動を評価する。
論文 参考訳(メタデータ) (2022-03-28T22:15:52Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Independent Reinforcement Learning for Weakly Cooperative Multiagent
Traffic Control Problem [22.733542222812158]
本研究では,irl(independent reinforcement learning)を用いて複雑な交通協調制御問題を解く。
そこで, 交通制御問題を部分的に観測可能な弱協調交通モデル (PO-WCTM) としてモデル化し, 交差点群全体の交通状況を最適化する。
実験の結果,CIL-DDQNはトラヒック制御問題のほぼすべての性能指標において,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-04-22T07:55:46Z) - Flatland Competition 2020: MAPF and MARL for Efficient Train
Coordination on a Grid World [49.80905654161763]
車両再スケジュール問題(vrsp)の解法開発を目的としたフラットランドコンペティション
VRSPは、交通ネットワークにおける旅行のスケジュールと、故障が発生した場合の車両の再スケジュールに関するものである。
現代の鉄道網の複雑化は、交通の動的リアルタイムスケジューリングを事実上不可能にします。
論文 参考訳(メタデータ) (2021-03-30T17:13:29Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。