Fugu-MT 論文翻訳(概要): USPR: Learning a Unified Solver for Profiled Routing

論文の概要: USPR: Learning a Unified Solver for Profiled Routing

arxiv url: http://arxiv.org/abs/2505.05119v1
Date: Thu, 08 May 2025 10:42:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 21:43:49.848125
Title: USPR: Learning a Unified Solver for Profiled Routing
Title（参考訳）: USPR:プロファイルルーティングのための統一された解決法を学ぶ
Authors: Chuanbo Hua, Federico Berto, Zhikai Zhao, Jiwoo Son, Changhyun Kwon, Jinkyoo Park,
Abstract要約: Profiled Vehicle Routing Problem (PVRP) は、自動車に特有の嗜好と制約を取り入れている。近年の強化学習(RL)の解法は,各プロファイル分布の再学習を必要とする。任意のプロファイルタイプを扱う新しいフレームワークであるUSPRを紹介する。
参考スコア（独自算出の注目度）: 15.136899433821894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Profiled Vehicle Routing Problem (PVRP) extends the classical VRP by incorporating vehicle-client-specific preferences and constraints, reflecting real-world requirements such as zone restrictions and service-level preferences. While recent reinforcement learning (RL) solvers have shown promise, they require retraining for each new profile distribution, suffer from poor representation ability, and struggle to generalize to out-of-distribution instances. In this paper, we address these limitations by introducing USPR (Unified Solver for Profiled Routing), a novel framework that natively handles arbitrary profile types. USPR introduces three key innovations: (i) Profile Embeddings (PE) to encode any combination of profile types; (ii) Multi-Head Profiled Attention (MHPA), an attention mechanism that models rich interactions between vehicles and clients; (iii) Profile-aware Score Reshaping (PSR), which dynamically adjusts decoder logits using profile scores to improve generalization. Empirical results on diverse PVRP benchmarks demonstrate that USPR achieves state-of-the-art results among learning-based methods while offering significant gains in flexibility and computational efficiency. We make our source code publicly available to foster future research at https://github.com/ai4co/uspr.
Abstract（参考訳）: Profiled Vehicle Routing Problem (PVRP)は、ゾーン制限やサービスレベルの優先といった現実的な要件を反映して、車両依存の嗜好と制約を取り入れることで、従来のVRPを拡張している。最近の強化学習(RL)ソルバは、将来性を示しているが、新しいプロファイル分布に対する再訓練、表現能力の低下、配布外インスタンスへの一般化に苦慮している。本稿では、任意のプロファイルタイプをネイティブに扱う新しいフレームワークであるUSPR(Unified Solver for Profiled Routing)を導入することで、これらの制限に対処する。 USPRは3つの重要なイノベーションを紹介している。一プロファイルの型の組み合わせを符号化するためのプロファイル埋め込み(PE) 2MHPA(Multi-Head Profiled Attention)とは、車両と顧客とのリッチな相互作用をモデル化する注意機構である。 3 プロファイル対応スコア変換(PSR)は、プロファイルスコアを用いて復号器のログを動的に調整し、一般化を改善する。多様なPVRPベンチマークの実証的な結果は、USPRが学習ベースの手法で最先端の結果を達成し、柔軟性と計算効率を大幅に向上させることを示した。ソースコードはhttps://github.com/ai4co/uspr.orgで公開しています。

関連論文リスト

CAMP: Collaborative Attention Model with Profiles for Vehicle Routing Problems [15.136899433821894]
プロファイル車両ルーティング問題(PVRP)は、異種静電容量車両ルーティング問題(HCVRP)の一般化である。マルチエージェント強化学習を用いてPVRPの効率的な解法を学習する新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-06T12:37:56Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
FedAli: Personalized Federated Learning Alignment with Prototype Layers for Generalized Mobile Services [9.683642138601464]
フェデレートアライメント(Federated Alignment, FedAli)は、プロトタイプベースの正規化技術であり、パーソナライズされた適応の堅牢性を強化しながら、クライアント間のアライメントを強化する。コアとなるFedAliは、一般化を強化するために、人間のメモリにインスパイアされたPrototypesレイヤによるアライメントを導入した。実験の結果,FedAliは不均一な環境下で強いパーソナライゼーションを維持しつつ,クライアントの一般化を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-11-15T21:35:21Z)
Improving Generalization of Neural Vehicle Routing Problem Solvers Through the Lens of Model Architecture [9.244633039170186]
本稿では,ESF(Scaling Factor)とDS(Distributed-Specific)デコーダを提案する。 ESFは、様々な大きさのVRPを解く際に、トレーニング中に発見された慣れ親しんだものに対して、モデルの注意重みパターンを調整する。 DSデコーダは、複数の補助光デコーダを通して複数のトレーニング分布パターンのVRPを明示的にモデル化し、モデル表現空間を拡大する。
論文参考訳（メタデータ） (2024-06-10T09:03:17Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
FedP3: Federated Personalized and Privacy-friendly Network Pruning under Model Heterogeneity [82.5448598805968]
我々は、フェデレートされたパーソナライズされたプライバシフレンドリーなネットワークプルーニングを表現する、効果的で適応可能なフェデレーションフレームワークであるFedP3を提案する。我々は、FedP3とその局所微分プライベート変種DP-FedP3の理論解釈を提供し、それらの効率を理論的に検証する。
論文参考訳（メタデータ） (2024-04-15T14:14:05Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
SplitGP: Achieving Both Generalization and Personalization in Federated Learning [31.105681433459285]
SplitGPは、リソース制約のあるクライアント間の効率的な推論のために、一般化とパーソナライズ機能をキャプチャする。我々はSplitGPの収束挙動を解析的に解析し、全てのクライアントモデルが定常点に接近していることを明らかにする。実験結果から, SplitGPは, 種々の分布外サンプルに対して, 推定時間, 試験精度において, 既存のベースラインよりも高い性能を示した。
論文参考訳（メタデータ） (2022-12-16T08:37:24Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。