論文の概要: Towards Generalization-Oriented Models for Vehicle Routing Problems with Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2605.26776v1
- Date: Tue, 26 May 2026 09:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.798744
- Title: Towards Generalization-Oriented Models for Vehicle Routing Problems with Mixture-of-Experts
- Title(参考訳): 混合実験による車両ルーティング問題に対する一般化指向モデルに向けて
- Authors: Changhao Miao, Yuntian Zhang, Tongyu Wu, Fang Deng, Chen Chen,
- Abstract要約: 本稿では,Residual Refined Experts with Instance-level Gating (R2E-IG) を提案する。
R2E-IGは、ディストリビューションとアウト・オブ・ディストリビューションの両方のインスタンスにおける最先端のベースラインに対する競合性能を達成する。
- 参考スコア(独自算出の注目度): 8.616895584914579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Deep Reinforcement Learning (DRL) has achieved substantial progress on Vehicle Routing Problems (VRPs). However, existing DRL-based methods are typically trained on instances generated from a uniform distribution, which limits their performance under real-world distribution shifts. In this paper, we aim to develop a generalization-oriented model that partitions the policy network into multiple modules and adaptively recombines modules to form specific policies during inference. Specifically, we propose Residual Refined Experts with Instance-level Gating (R2E-IG) to improve cross-distribution generalization. Our contributions are threefold: (1) We introduce a Residual Refined Expert (R2E) architecture that enhance expert expressiveness via residual refinement; (2) We design an instance-level gating mechanism that learns distribution-aware instance representations and routes inputs to suitable modules; (3) We propose a mixed-distribution training mechanism equipped with Dynamic Weight Adaption (DWA), which dynamically reweights training data from different distributions to emphasize more informative ones. Extensive experiments show that R2E-IG achieves competitive performance against state-of-the-art baselines on both in-distribution and out-of-distribution instances across synthetic and benchmark datasets. Moreover, R2E-IG is generic and can be easily integrated into existing DRL-based methods to further improve performance.
- Abstract(参考訳): 近年、深層強化学習(DRL)は、車両ルーティング問題(VRP)において大きな進歩を遂げている。
しかし、既存のDRLベースの手法は、通常、一様分布から生成されたインスタンスで訓練される。
本稿では,ポリシーネットワークを複数のモジュールに分割し,モジュールを適応的に再結合し,推論中に特定のポリシーを形成する一般化指向モデルを開発することを目的とする。
具体的には,Residual Refined Experts with Instance-level Gating (R2E-IG) を提案する。
提案手法は,(1)Residual Refined Expert (R2E) アーキテクチャを導入し,Residual Refined Expert (R2E) アーキテクチャを導入し,(2) 分散を意識したインスタンス表現と適切なモジュールへの経路入力を学習するインスタンスレベルのゲーティング機構を設計し,(3) 動的重み適応(Dynamic Weight Adaption, DWA) を備えた混合分布学習機構を提案する。
大規模な実験により、R2E-IGは、合成データセットとベンチマークデータセットをまたいだ分布内および分布外の両方における最先端のベースラインと競合する性能を達成している。
さらに、R2E-IGは汎用的であり、既存のDRLベースのメソッドに容易に統合でき、性能が向上する。
関連論文リスト
- HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - FedDSR: Federated Deep Supervision and Regularization Towards Autonomous Driving [32.600054594223096]
Federated Deep Supervision and Regularization (FedDSR) は、Federated ADシステムにマルチアクセス中間層監視と正規化を組み込んだパラダイムである。
FedDSRはmIoUが最大8.93%改善し、トレーニングラウンドが28.57%削減された。
論文 参考訳(メタデータ) (2025-12-07T06:23:59Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - Generalization in Reinforcement Learning for Radio Access Networks [2.9822261313236513]
RAN制御のための一般化中心RLフレームワークを提案する。
部分的および雑音的な観測から動的に様々な状態を頑健に再構成する。
無線ノード、セル属性、およびそれらのトポロジなどの静的および半静的情報をグラフ表現によってエンコードする。
論文 参考訳(メタデータ) (2025-07-09T07:22:22Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - GRAM: Generalization in Deep RL with a Robust Adaptation Module [62.662894174616895]
本研究では,深層強化学習における動的一般化の枠組みを提案する。
本稿では,分散環境と分散環境の両方を識別・反応する機構を提供するロバスト適応モジュールを提案する。
我々のアルゴリズムであるGRAMは,展開時の分布内および分布外シナリオにまたがる強力な一般化性能を実現する。
論文 参考訳(メタデータ) (2024-12-05T16:39:01Z) - Improving Generalization of Neural Vehicle Routing Problem Solvers Through the Lens of Model Architecture [9.244633039170186]
本稿では,ESF(Scaling Factor)とDS(Distributed-Specific)デコーダを提案する。
ESFは、様々な大きさのVRPを解く際に、トレーニング中に発見された慣れ親しんだものに対して、モデルの注意重みパターンを調整する。
DSデコーダは、複数の補助光デコーダを通して複数のトレーニング分布パターンのVRPを明示的にモデル化し、モデル表現空間を拡大する。
論文 参考訳(メタデータ) (2024-06-10T09:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。