論文の概要: End-to-end Deep Reinforcement Learning for Stochastic Multi-objective Optimization in C-VRPTW
- arxiv url: http://arxiv.org/abs/2512.01518v1
- Date: Mon, 01 Dec 2025 10:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.810416
- Title: End-to-end Deep Reinforcement Learning for Stochastic Multi-objective Optimization in C-VRPTW
- Title(参考訳): C-VRPTWにおける確率的多目的最適化のためのエンドツーエンド深層強化学習
- Authors: Abdo Abouelrous, Laurens Bliek, Yaoxin Wu, Yingqian Zhang,
- Abstract要約: 本研究は,本質性と複数の目的を特徴とする車両変種を解決するためのルーティングにおける学習ベースの応用について考察する。
我々は、特に旅行時間の不確実性について検討し、また、作業効率とシフト長の労働規制を共同で目標とする、総走行時間とルートメースパンという2つの目的についても検討する。
本稿では,本モデルの真面目性と多目的性を同時に扱うモデルを提案する。
- 参考スコア(独自算出の注目度): 15.392818864851654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we consider learning-based applications in routing to solve a Vehicle Routing variant characterized by stochasticity and multiple objectives. Such problems are representative of practical settings where decision-makers have to deal with uncertainty in the operational environment as well as multiple conflicting objectives due to different stakeholders. We specifically consider travel time uncertainty. We also consider two objectives, total travel time and route makespan, that jointly target operational efficiency and labor regulations on shift length, although different objectives could be incorporated. Learning-based methods offer earnest computational advantages as they can repeatedly solve problems with limited interference from the decision-maker. We specifically focus on end-to-end deep learning models that leverage the attention mechanism and multiple solution trajectories. These models have seen several successful applications in routing problems. However, since travel times are not a direct input to these models due to the large dimensions of the travel time matrix, accounting for uncertainty is a challenge, especially in the presence of multiple objectives. In turn, we propose a model that simultaneously addresses stochasticity and multi-objectivity and provide a refined training mechanism for this model through scenario clustering to reduce training time. Our results show that our model is capable of constructing a Pareto Front of good quality within acceptable run times compared to three baselines.
- Abstract(参考訳): 本研究では、確率性と複数の目的を特徴とする車両ルーティングの変種を解決するためのルーティングにおける学習ベースの応用について考察する。
このような問題は、意思決定者が運用環境の不確実性に対処しなければならない実践的な状況と、利害関係者の相違による複数の相反する目標を代表している。
具体的には、旅行時間の不確実性について検討する。
また,移動時間と経路メイクパンの2つの目的について検討し,異なる目的が組み合わさっても,作業効率と労働規則のシフト長を両立させることを検討した。
学習ベースの手法は、意思決定者からの限られた干渉で繰り返し問題を解決することができるので、真面目な計算上の利点を提供する。
具体的には、注意機構と複数のソリューショントラジェクトリを利用するエンドツーエンドのディープラーニングモデルに焦点を当てる。
これらのモデルはルーティング問題にいくつかの成功例がある。
しかしながら、旅行時間は旅行時間行列の次元が大きいため、これらのモデルへの直接的な入力ではないため、不確実性を説明することは、特に複数の目的が存在する場合において困難である。
そこで本研究では,確率性と多目的性を同時に扱うモデルを提案し,シナリオクラスタリングにより学習時間を短縮する手法を提案する。
以上の結果から,本モデルでは3つのベースラインと比較して,許容実行時間内に品質の高いパレートフロントを構築することが可能であることが示唆された。
関連論文リスト
- Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Many-Objective Multi-Solution Transport [36.07360460509921]
many-objective multi-solution Transport (MosT) は、Paretoの多くの目的に対して複数の多様なソリューションを見つけるためのフレームワークである。
MosTはこの問題を各解に対する重み付けされた目的の2段階の最適化として定式化し、そこでは重み付けは目的と解の間の最適な輸送によって定義される。
論文 参考訳(メタデータ) (2024-03-06T23:03:12Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Multi-Target Multiplicity: Flexibility and Fairness in Target
Specification under Resource Constraints [76.84999501420938]
対象の選択が個人の結果にどのように影響するかを評価するための概念的および計算的枠組みを導入する。
目的変数選択から生じる多重度は, 1つのターゲットのほぼ最適モデルから生じるものよりも大きいことが示される。
論文 参考訳(メタデータ) (2023-06-23T18:57:14Z) - Gradient Optimization for Single-State RMDPs [0.0]
自律運転、ロボット部品の制御、医療診断といった現代の問題は、分析的に解決することがますます困難になっている。
データ駆動型ソリューションは、人によって理解される以上の複雑さの次元に問題があるという強力な選択肢です。
残念ながら、データ駆動モデルは最悪のシナリオでどのように機能するかに不確実性を伴うことが多い。
自律運転や医療などの分野では、これらの障害の結果は破滅的なものになる可能性がある。
論文 参考訳(メタデータ) (2022-09-25T18:50:02Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。