Fugu-MT 論文翻訳(概要): Fast Approximate Solutions using Reinforcement Learning for Dynamic Capacitated Vehicle Routing with Time Windows

論文の概要: Fast Approximate Solutions using Reinforcement Learning for Dynamic Capacitated Vehicle Routing with Time Windows

arxiv url: http://arxiv.org/abs/2102.12088v1
Date: Wed, 24 Feb 2021 06:30:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-25 13:43:15.131083
Title: Fast Approximate Solutions using Reinforcement Learning for Dynamic Capacitated Vehicle Routing with Time Windows
Title（参考訳）: 時間窓を有する動的容量車両ルーティングのための強化学習を用いた高速近似解法
Authors: Nazneen N Sultana, Vinita Baniwal, Ansuma Basumatary, Piyush Mittal, Supratim Ghosh, Harshad Khadilkar
Abstract要約: 本稿では, CVRP-TWDR (Capacitated Vehicle Routing with Time Windows and Dynamic Routing) の一般クラスに対する, 本質的に並列化, 高速, 近似学習に基づくソリューションを開発する。艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。
参考スコア（独自算出の注目度）: 3.5232085374661284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper develops an inherently parallelised, fast, approximate learning-based solution to the generic class of Capacitated Vehicle Routing with Time Windows and Dynamic Routing (CVRP-TWDR). Considering vehicles in a fleet as decentralised agents, we postulate that using reinforcement learning (RL) based adaptation is a key enabler for real-time route formation in a dynamic environment. The methodology allows each agent (vehicle) to independently evaluate the value of serving each customer, and uses a centralised allocation heuristic to finalise the allocations based on the generated values. We show that the solutions produced by this method on standard datasets are significantly faster than exact formulations and state-of-the-art meta-heuristics, while being reasonably close to optimal in terms of solution quality. We describe experiments in both the static case (when all customer demands and time windows are known in advance) as well as the dynamic case (where customers can `pop up' at any time during execution). The results with a single trained model on large, out-of-distribution test data demonstrate the scalability and flexibility of the proposed approach.
Abstract（参考訳）: 本稿では,時間 Windows と Dynamic Routing (CVRP-TWDR) の一般的なクラスに対する並列化,高速,近似的な学習ベースソリューションを開発した。艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。この手法により、各エージェント(車両)は、各顧客に役立つ価値を独立して評価することができ、生成された値に基づいて割り当てを確定するために集中アロケーションヒューリスティックを使用します。本手法により得られた解は, 正確な定式化や最先端のメタヒューリスティックスよりもはるかに高速であり, 解品質の面では適度に最適であることを示す。静的ケース(顧客の要求と時間ウィンドウが事前に分かっている場合)と動的ケース(顧客が実行中にいつでも‘ポップアップ’できる場合)の両方の実験について説明する。大規模な分散テストデータに基づく単一トレーニングモデルによる結果は、提案されたアプローチのスケーラビリティと柔軟性を示しています。

関連論文リスト

Optimising Call Centre Operations using Reinforcement Learning: Value Iteration versus Proximal Policy Optimisation [0.0]
本稿では、コールセンタにおける呼び出しルーティングを最適化するための強化学習(RL)の適用について検討する。経験から学ぶPPO(Proximal Policy optimization)を用いたモデルフリーアプローチと、既知のシステムダイナミクス下での値反復(VI)を用いたモデルベースアプローチを比較した。
論文参考訳（メタデータ） (2025-07-24T13:31:38Z)
Learning to Search for Vehicle Routing with Multiple Time Windows [13.91760960564074]
強化学習に基づく適応型可変近傍探索(RL-AVNS)を提案する。提案手法は,実時間解状態と学習経験に基づいて局所演算子を動的に選択するための強化学習フレームワークを統合する。
論文参考訳（メタデータ） (2025-05-29T05:03:28Z)
From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。複雑な動的トラフィックシナリオを処理できる。 CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文参考訳（メタデータ） (2024-10-03T06:45:59Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Spatial-temporal-demand clustering for solving large-scale vehicle routing problems with time windows [0.0]
本稿では,クラスタリングを用いて顧客をグループ化するDRI(Decompose-route-improve)フレームワークを提案する。その類似度基準は、顧客の空間的、時間的、需要データを含む。本研究では,解答サブプロブレム間でプルーンド局所探索(LS)を適用し,全体の解法を改善する。
論文参考訳（メタデータ） (2024-01-20T06:06:01Z)
End-to-end Lidar-Driven Reinforcement Learning for Autonomous Racing [0.0]
強化学習(Reinforcement Learning, RL)は、自動化とロボット工学の領域において、変革的なアプローチとして登場した。本研究は、フィードフォワード生ライダーと速度データのみを用いて、レース環境をナビゲートするRLエージェントを開発し、訓練する。エージェントのパフォーマンスは、実世界のレースシナリオで実験的に評価される。
論文参考訳（メタデータ） (2023-09-01T07:03:05Z)
Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文参考訳（メタデータ） (2022-05-16T12:14:42Z)
Value Function is All You Need: A Unified Learning Framework for Ride Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文参考訳（メタデータ） (2021-05-18T19:22:24Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文参考訳（メタデータ） (2021-04-01T02:14:01Z)
Real-time End-to-End Federated Learning: An Automotive Case Study [16.79939549201032]
本稿では,新しい非同期モデルアグリゲーションプロトコルと組み合わさったリアルタイムエンドツーエンドフェデレーション学習のアプローチを提案する。その結果,非同期フェデレーション学習は,局所エッジモデルの予測性能を大幅に向上させ,集中型機械学習法と同じ精度に到達できることがわかった。
論文参考訳（メタデータ） (2021-03-22T14:16:16Z)
Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文参考訳（メタデータ） (2021-03-08T05:34:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。