論文の概要: A Simple and Reproducible Hybrid Solver for a Truck-Drone VRP with Recharge
- arxiv url: http://arxiv.org/abs/2509.18162v1
- Date: Wed, 17 Sep 2025 05:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.438455
- Title: A Simple and Reproducible Hybrid Solver for a Truck-Drone VRP with Recharge
- Title(参考訳): トラックドローVRP用簡易かつ再現可能なハイブリッドソルバー
- Authors: Meraryslan Meraliyev, Cemil Turan, Shirali Kadyrov,
- Abstract要約: 我々は、明示的なバッテリー管理の下で、1台のトラックと1台のドローンによるラストマイル配送を調査した。
本稿では、ALNSベースのトラックツアーと、ドローンのソートをスケジュールする小さなポインター/アテンションポリシーを結合するハイブリッド強化学習(RL)手法を提案する。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study last-mile delivery with one truck and one drone under explicit battery management: the drone flies at twice the truck speed; each sortie must satisfy an endurance budget; after every delivery the drone recharges on the truck before the next launch. We introduce a hybrid reinforcement learning (RL) solver that couples an ALNS-based truck tour (with 2/3-opt and Or-opt) with a small pointer/attention policy that schedules drone sorties. The policy decodes launch--serve--rendezvous triplets with hard feasibility masks for endurance and post-delivery recharge; a fast, exact timeline simulator enforces launch/recovery handling and computes the true makespan used by masked greedy/beam decoding. On Euclidean instances with $N{=}50$, $E{=}0.7$, and $R{=}0.1$, the method achieves an average makespan of \textbf{5.203}$\pm$0.093, versus \textbf{5.349}$\pm$0.038 for ALNS and \textbf{5.208}$\pm$0.124 for NN -- i.e., \textbf{2.73\%} better than ALNS on average and within \textbf{0.10\%} of NN. Per-seed, the RL scheduler never underperforms ALNS on the same instance and ties or beats NN on two of three seeds. A decomposition of the makespan shows the expected truck--wait trade-off across heuristics; the learned scheduler balances both to minimize the total completion time. We provide a config-first implementation with plotting and significance-test utilities to support replication.
- Abstract(参考訳): ドローンはトラックの2倍の速度で飛行し、各ソートは耐久予算を満たさなければならない。
我々は、ALNSベースのトラックツアー(2/3オプトとOr-opt)と、ドローンの分類をスケジュールする小さなポインター/アテンションポリシーを結合するハイブリッド強化学習(RL)ソルバを導入する。
このポリシーは、持続性と配送後充電のためのハードファシビリティマスクを備えたランデブー三つ子をデコードし、高速で正確なタイムラインシミュレーターが起動/回収処理を強制し、マスク付きグリーディ/ビームデコードで使用される真のメイスパンを計算する。
N{=}50$, $E{=}0.7$, $R{=}0.1$ のユークリッドのインスタンスの場合、このメソッドは ALNS の \textbf{5.203}$\pm$0.093 に対して ALNS の \textbf{5.349}$\pm$0.038 と NN の \textbf{5.208}$\pm$0.124 と NN の \textbf{2.73\%} の平均および NN の \textbf{0.10\% よりも良い。
種子当たり、RLスケジューラは同じインスタンス上でALNSを過小評価せず、3つのシードのうち2つでNNを結び付けたり、打ち負かしたりしない。
ステパンの分解は、ヒューリスティックス間で期待されるトラックのトレードオフを示し、学習したスケジューラは、合計完了時間を最小化するために、両方のバランスをとる。
レプリケーションをサポートするために、プロットと重要なテストユーティリティを備えたconfig-first実装を提供する。
関連論文リスト
- Fast and scalable Wasserstein-1 neural optimal transport solver for single-cell perturbation prediction [55.89763969583124]
最適輸送(OT)理論はそのようなマッピングを構築するための原則的な枠組みを提供する。
We propose a novel solver based on Wasserstein-1 (W$) dual formulation。
我々の実験は、提案した$W$のニューラル・トランスポート・ソルバが、ユニークなモンマップを見つける際に、$W$のOTを模倣できることを実証した。
論文 参考訳(メタデータ) (2024-11-01T14:23:19Z) - Optimization of Multi-Agent Flying Sidekick Traveling Salesman Problem over Road Networks [10.18252143035175]
道路ネットワーク上でのマルチエージェント飛行サイドキック走行セールスマン問題(MA-FSTSP)について紹介する。
このNPハード問題に対して,混合整数線形計画モデルと効率的な3相アルゴリズムを提案する。
当社のアプローチは5分間の時間制限内で300以上の顧客にスケールし、大規模な実世界のロジスティクスアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2024-08-20T20:44:18Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis [41.75366066380951]
N$エージェント間の協調によりグローバルモデルを構築する非同期強化学習フレームワークAFedPGを提案する。
我々は, AFedPGの理論的大域収束境界を解析し, サンプル複雑性と時間複雑性の両方の観点から, 提案アルゴリズムの利点を特徴づける。
各種エージェントを多用した4つの MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
論文 参考訳(メタデータ) (2024-04-09T04:21:13Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - MixCycle: Mixup Assisted Semi-Supervised 3D Single Object Tracking with
Cycle Consistency [81.49482678098464]
3Dシングルオブジェクトトラッキング(SOT)は、自動走行の必要不可欠な部分である。
教師なし2次元SOTにおけるサイクルトラッキングの大成功に触発されて,我々は最初の半教師付きアプローチを3次元SOTに導入した。
具体的には,1) 学習の初期段階においてモデルをよりよく収束させるためにラベルを利用する自己追跡サイクル,2) 運動変動に対するトラッカーの頑健さとテンプレート更新戦略によるテンプレートノイズを補強する前向きサイクル,という2つのサイクル整合性戦略を導入する。
論文 参考訳(メタデータ) (2023-03-16T10:48:59Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Exact and Heuristic Approaches to Drone Delivery Problems [0.0]
FSTSP(Flying Sidekick Traveling Salesman Problem)は、トラックとドローンによる配送システムである。
それぞれのドローンはトラックに戻り、バッテリーを充電し、別の荷物を拾い、また新しい顧客場所に打ち上げなければならない。
この研究は、新しい混合プログラミング(MIP)の定式化と、この問題に対処するためのアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-29T21:31:50Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。