論文の概要: USPR: Learning a Unified Solver for Profiled Routing
- arxiv url: http://arxiv.org/abs/2505.05119v1
- Date: Thu, 08 May 2025 10:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.848125
- Title: USPR: Learning a Unified Solver for Profiled Routing
- Title(参考訳): USPR:プロファイルルーティングのための統一された解決法を学ぶ
- Authors: Chuanbo Hua, Federico Berto, Zhikai Zhao, Jiwoo Son, Changhyun Kwon, Jinkyoo Park,
- Abstract要約: Profiled Vehicle Routing Problem (PVRP) は、自動車に特有の嗜好と制約を取り入れている。
近年の強化学習(RL)の解法は,各プロファイル分布の再学習を必要とする。
任意のプロファイルタイプを扱う新しいフレームワークであるUSPRを紹介する。
- 参考スコア(独自算出の注目度): 15.136899433821894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Profiled Vehicle Routing Problem (PVRP) extends the classical VRP by incorporating vehicle-client-specific preferences and constraints, reflecting real-world requirements such as zone restrictions and service-level preferences. While recent reinforcement learning (RL) solvers have shown promise, they require retraining for each new profile distribution, suffer from poor representation ability, and struggle to generalize to out-of-distribution instances. In this paper, we address these limitations by introducing USPR (Unified Solver for Profiled Routing), a novel framework that natively handles arbitrary profile types. USPR introduces three key innovations: (i) Profile Embeddings (PE) to encode any combination of profile types; (ii) Multi-Head Profiled Attention (MHPA), an attention mechanism that models rich interactions between vehicles and clients; (iii) Profile-aware Score Reshaping (PSR), which dynamically adjusts decoder logits using profile scores to improve generalization. Empirical results on diverse PVRP benchmarks demonstrate that USPR achieves state-of-the-art results among learning-based methods while offering significant gains in flexibility and computational efficiency. We make our source code publicly available to foster future research at https://github.com/ai4co/uspr.
- Abstract(参考訳): Profiled Vehicle Routing Problem (PVRP)は、ゾーン制限やサービスレベルの優先といった現実的な要件を反映して、車両依存の嗜好と制約を取り入れることで、従来のVRPを拡張している。
最近の強化学習(RL)ソルバは、将来性を示しているが、新しいプロファイル分布に対する再訓練、表現能力の低下、配布外インスタンスへの一般化に苦慮している。
本稿では、任意のプロファイルタイプをネイティブに扱う新しいフレームワークであるUSPR(Unified Solver for Profiled Routing)を導入することで、これらの制限に対処する。
USPRは3つの重要なイノベーションを紹介している。
一 プロファイルの型の組み合わせを符号化するためのプロファイル埋め込み(PE)
2MHPA(Multi-Head Profiled Attention)とは、車両と顧客とのリッチな相互作用をモデル化する注意機構である。
3 プロファイル対応スコア変換(PSR)は、プロファイルスコアを用いて復号器のログを動的に調整し、一般化を改善する。
多様なPVRPベンチマークの実証的な結果は、USPRが学習ベースの手法で最先端の結果を達成し、柔軟性と計算効率を大幅に向上させることを示した。
ソースコードはhttps://github.com/ai4co/uspr.orgで公開しています。
関連論文リスト
- CAMP: Collaborative Attention Model with Profiles for Vehicle Routing Problems [15.136899433821894]
プロファイル車両ルーティング問題(PVRP)は、異種静電容量車両ルーティング問題(HCVRP)の一般化である。
マルチエージェント強化学習を用いてPVRPの効率的な解法を学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:37:56Z) - Improving Generalization of Neural Vehicle Routing Problem Solvers Through the Lens of Model Architecture [9.244633039170186]
本稿では,ESF(Scaling Factor)とDS(Distributed-Specific)デコーダを提案する。
ESFは、様々な大きさのVRPを解く際に、トレーニング中に発見された慣れ親しんだものに対して、モデルの注意重みパターンを調整する。
DSデコーダは、複数の補助光デコーダを通して複数のトレーニング分布パターンのVRPを明示的にモデル化し、モデル表現空間を拡大する。
論文 参考訳(メタデータ) (2024-06-10T09:03:17Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - FedP3: Federated Personalized and Privacy-friendly Network Pruning under Model Heterogeneity [82.5448598805968]
我々は、フェデレートされたパーソナライズされたプライバシフレンドリーなネットワークプルーニングを表現する、効果的で適応可能なフェデレーションフレームワークであるFedP3を提案する。
我々は、FedP3とその局所微分プライベート変種DP-FedP3の理論解釈を提供し、それらの効率を理論的に検証する。
論文 参考訳(メタデータ) (2024-04-15T14:14:05Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。