論文の概要: Multi-Task Vehicle Routing Solver via Mixture of Specialized Experts under State-Decomposable MDP
- arxiv url: http://arxiv.org/abs/2510.21453v1
- Date: Fri, 24 Oct 2025 13:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.489527
- Title: Multi-Task Vehicle Routing Solver via Mixture of Specialized Experts under State-Decomposable MDP
- Title(参考訳): 状態分解型MDP下での特殊専門家の混在によるマルチタスク車両ルーティング・ソルバー
- Authors: Yuxin Pan, Zhiguang Cao, Chengyang Gu, Liu Liu, Peilin Zhao, Yize Chen, Fangzhen Lin,
- Abstract要約: 本稿では,VRPの変種間で共有成分の性質を認識可能な統合解法フレームワークを提案する。
状態空間を基底状態空間のカルテアン積として表現することにより、VRPを再構成する状態分解型MDP(SDMDP)を導入する。
The Latent Space-based SDMDP extension is developed by the both the optimal basis policy and a learnable mix function。
- 参考スコア(独自算出の注目度): 57.28979643999352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing neural methods for multi-task vehicle routing problems (VRPs) typically learn unified solvers to handle multiple constraints simultaneously. However, they often underutilize the compositional structure of VRP variants, each derivable from a common set of basis VRP variants. This critical oversight causes unified solvers to miss out the potential benefits of basis solvers, each specialized for a basis VRP variant. To overcome this limitation, we propose a framework that enables unified solvers to perceive the shared-component nature across VRP variants by proactively reusing basis solvers, while mitigating the exponential growth of trained neural solvers. Specifically, we introduce a State-Decomposable MDP (SDMDP) that reformulates VRPs by expressing the state space as the Cartesian product of basis state spaces associated with basis VRP variants. More crucially, this formulation inherently yields the optimal basis policy for each basis VRP variant. Furthermore, a Latent Space-based SDMDP extension is developed by incorporating both the optimal basis policies and a learnable mixture function to enable the policy reuse in the latent space. Under mild assumptions, this extension provably recovers the optimal unified policy of SDMDP through the mixture function that computes the state embedding as a mapping from the basis state embeddings generated by optimal basis policies. For practical implementation, we introduce the Mixture-of-Specialized-Experts Solver (MoSES), which realizes basis policies through specialized Low-Rank Adaptation (LoRA) experts, and implements the mixture function via an adaptive gating mechanism. Extensive experiments conducted across VRP variants showcase the superiority of MoSES over prior methods.
- Abstract(参考訳): 既存のマルチタスク車両ルーティング問題(VRP)のニューラルネットワークは通常、複数の制約を同時に処理するために統一解法を学習する。
しかし、彼らはしばしばVRP変種の構成構造を過小評価し、それぞれが共通のVRP変種から導出される。
この批判的な監視により、統一解法は基本解法の潜在的な利点を見逃し、それぞれが基本VRPの変種に特化している。
この制限を克服するために、トレーニングされたニューラルソルバの指数的成長を緩和しつつ、ベースソルバを積極的に再利用することで、統合されたソルバがVRPの変種間で共有成分の性質を知覚することを可能にするフレームワークを提案する。
具体的には、ベースVRPの変種に関連する基底状態空間のカルテシアン積として状態空間を表現し、VRPを再構成する状態分解可能なMDP(SDMDP)を導入する。
さらに重要なことに、この定式化は本質的に、各基底VRP変種に対して最適な基底ポリシーをもたらす。
さらに、最適基本ポリシーと学習可能な混合関数を併用して、潜時空間でのポリシー再利用を実現することにより、潜時空間に基づくSDMDP拡張を開発する。
緩やかな仮定の下で、この拡張は最適基底ポリシーによって生成された基底状態埋め込みから写像として状態埋め込みを計算する混合関数を通じて、SDMDPの最適統一ポリシーを確実に回復する。
そこで本研究では,LoRA(Lo-Rank Adaptation)の専門家による基本方針を実現するMixture-of-specized-Experts Solver (MoSES)を導入し,適応ゲーティング機構を用いて混合関数を実装した。
VRPの亜種にまたがる大規模な実験は、以前の方法よりもMoSESの方が優れていることを示した。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - Towards Generalizable Neural Solvers for Vehicle Routing Problems via Ensemble with Transferrable Local Policy [24.91781032046481]
車両ルーティング問題(VRP)のための多くのニューラルネットワーク構築手法は、特定のノード分布と限られたスケールを持つ合成問題インスタンスに焦点を当てている。
我々は,局所移動可能な局所的特徴から学習する補助的政策を設計し,それを典型的な建設方針と統合し,アンサンブル政策を形成する。
共同トレーニングでは、集約されたポリシが協調的かつ補完的に実行され、一般化が促進される。
論文 参考訳(メタデータ) (2023-08-27T13:22:50Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。