論文の概要: Reinforcement Learning Approaches for the Orienteering Problem with Stochastic and Dynamic Release Dates
- arxiv url: http://arxiv.org/abs/2207.00885v3
- Date: Mon, 27 May 2024 08:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 12:57:42.287559
- Title: Reinforcement Learning Approaches for the Orienteering Problem with Stochastic and Dynamic Release Dates
- Title(参考訳): 確率的・動的リリース日数によるオリエンテーリング問題に対する強化学習アプローチ
- Authors: Yuanyuan Li, Claudia Archetti, Ivana Ljubic,
- Abstract要約: 我々は、eコマースキャリアが直面しているシーケンシャルな意思決定問題について検討する。
目的は、サービス時間中に配信される予定のパーセル数を最大化することです。
本稿では,この問題を解決するための2つの強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 5.135929080521775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a sequential decision-making problem faced by e-commerce carriers related to when to send out a vehicle from the central depot to serve customer requests, and in which order to provide the service, under the assumption that the time at which parcels arrive at the depot is stochastic and dynamic. The objective is to maximize the expected number of parcels that can be delivered during service hours. We propose two reinforcement learning (RL) approaches for solving this problem. These approaches rely on a look-ahead strategy in which future release dates are sampled in a Monte-Carlo fashion and a batch approach is used to approximate future routes. Both RL approaches are based on value function approximation - one combines it with a consensus function (VFA-CF) and the other one with a two-stage stochastic integer linear programming model (VFA-2S). VFA-CF and VFA-2S do not need extensive training as they are based on very few hyper-parameters and make good use of integer linear programming (ILP) and branch-and-cut-based exact methods to improve the quality of decisions. We also establish sufficient conditions for partial characterization of optimal policy and integrate them into VFA-CF/VFA-2S. In an empirical study, we conduct a competitive analysis using upper bounds with perfect information. We also show that VFA-CF and VFA-2S greatly outperform alternative approaches that: 1) do not rely on future information, or 2) are based on point estimation of future information, or 3) employ heuristics rather than exact methods, or 4) use exact evaluations of future rewards.
- Abstract(参考訳): 本稿では,中央駅から車両をいつ発送して顧客の要望に答えるか,どのようにサービス提供をするかという,電子商取引事業者が直面する一連の意思決定問題について,施設に到着する時刻が確率的かつ動的であることを前提として検討する。
目的は、サービス時間中に配信される予定のパーセル数を最大化することです。
本稿では,この問題を解決するための2つの強化学習手法を提案する。
これらのアプローチは、将来のリリース日をモンテカルロ方式でサンプリングし、バッチアプローチを使用して将来のルートを近似するルックアヘッド戦略に依存している。
どちらのRLアプローチも値関数近似に基づいており、1つはコンセンサス関数(VFA-CF)、もう1つは2段階確率整数線形計画モデル(VFA-2S)と組み合わせている。
VFA-CFとVFA-2Sは、非常に少数のハイパーパラメータに基づいており、決定の質を改善するために整数線形プログラミング(ILP)と分岐とカットに基づく正確な手法をうまく活用しているため、広範なトレーニングを必要としない。
また、最適政策の部分的評価のための十分な条件を確立し、VFA-CF/VFA-2Sに統合する。
実証実験では,完全情報を用いた上界を用いた競合解析を行った。
また、VFA-CFとVFA-2Sは、以下の方法よりも大幅に優れていることを示す。
1)将来の情報に依存しない、又は
2)将来の情報の点推定に基づくもの
3)正確な方法よりもヒューリスティックスを採用するか、
4) 将来の報酬の正確な評価をすること。
関連論文リスト
- Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - On Second-order Optimization Methods for Federated Learning [59.787198516188425]
フェデレート学習環境における局所的なステップを持つ2階分散手法の性能評価を行った。
本稿では,更新のための2階ローカル情報とグローバルライン検索を用いて,結果の局所的特異性に対処する新たな変種を提案する。
論文 参考訳(メタデータ) (2021-09-06T12:04:08Z) - Model Selection for Offline Reinforcement Learning: Practical
Considerations for Healthcare Settings [13.376364233897528]
強化学習は治療方針を学習し、医療における意思決定を支援するために用いられる。
モデル選択のための標準的な検証パイプラインは、実際の環境で学習したポリシーを実行する必要がある。
我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。
論文 参考訳(メタデータ) (2021-07-23T02:41:51Z) - Fast Approximate Solutions using Reinforcement Learning for Dynamic
Capacitated Vehicle Routing with Time Windows [3.5232085374661284]
本稿では, CVRP-TWDR (Capacitated Vehicle Routing with Time Windows and Dynamic Routing) の一般クラスに対する, 本質的に並列化, 高速, 近似学習に基づくソリューションを開発する。
艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。
論文 参考訳(メタデータ) (2021-02-24T06:30:16Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。