論文の概要: Reinforcement Learning Approaches for the Orienteering Problem with
Stochastic and Dynamic Release Dates
- arxiv url: http://arxiv.org/abs/2207.00885v1
- Date: Sat, 2 Jul 2022 17:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 16:18:18.574825
- Title: Reinforcement Learning Approaches for the Orienteering Problem with
Stochastic and Dynamic Release Dates
- Title(参考訳): 確率的および動的解放日数をもつオリエンテーリング問題に対する強化学習アプローチ
- Authors: Yuanyuan Li, Claudia Archetti, Ivana Ljubic
- Abstract要約: 我々は、eコマースキャリアが直面しているシーケンシャルな意思決定問題について検討する。
目的は、サービス時間中に配信できるパーセルの数を最大化することです。
本稿では,政策関数近似(PFA)と価値関数近似(VFA)に基づく2つの学習手法を提案する。
- 参考スコア(独自算出の注目度): 7.691755449724637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a sequential decision making problem faced by
e-commerce carriers related to when to send out a vehicle from the central
depot to serve customer requests, and in which order to provide the service,
under the assumption that the time at which parcels arrive at the depot is
stochastic and dynamic. The objective is to maximize the number of parcels that
can be delivered during the service hours. We propose two reinforcement
learning approaches for solving this problem, one based on a policy function
approximation (PFA) and the second on a value function approximation (VFA).
Both methods are combined with a look-ahead strategy, in which future release
dates are sampled in a Monte-Carlo fashion and a tailored batch approach is
used to approximate the value of future states. Our PFA and VFA make a good use
of branch-and-cut-based exact methods to improve the quality of decisions. We
also establish sufficient conditions for partial characterization of optimal
policy and integrate them into PFA/VFA. In an empirical study based on 720
benchmark instances, we conduct a competitive analysis using upper bounds with
perfect information and we show that PFA and VFA greatly outperform two
alternative myopic approaches. Overall, PFA provides best solutions, while VFA
(which benefits from a two-stage stochastic optimization model) achieves a
better tradeoff between solution quality and computing time.
- Abstract(参考訳): 本稿では,利用者の要望に応えるために,中央補給所から車両を送出する時期に関連する電子商取引事業者が直面する順次意思決定の問題について検討し,その場合,荷物が到着する時刻が確率的かつ動的であることを前提にサービス提供を行う。
目的は、サービス時間中に配信できる小包の数を最大化することである。
本稿では,この問題を解決するための2つの強化学習手法を提案する。1つは政策関数近似(PFA)に基づくもので,もう1つは価値関数近似(VFA)に基づくものである。
どちらの方法もルックアヘッド戦略と組み合わされ、将来のリリース日はモンテカルロ方式でサンプリングされ、再調整されたバッチアプローチは将来の状態の値の近似に使用される。
私たちのPFAとVFAは、意思決定の品質を改善するために、ブランチとカットベースの正確なメソッドをうまく利用しています。
また、最適政策の部分的評価のための十分な条件を確立し、それらをPFA/VFAに統合する。
720ベンチマークの事例に基づく実証的研究では, 完全情報を持つ上界を用いた競合解析を行い, PFAとVFAが2つの代替ミオピックアプローチを大幅に上回ることを示す。
全体として、PFAは最良のソリューションを提供するが、VFA(二段階確率最適化モデルの恩恵を受けている)は、ソリューションの品質と計算時間の間のトレードオフを良くする。
関連論文リスト
- Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - On Second-order Optimization Methods for Federated Learning [59.787198516188425]
フェデレート学習環境における局所的なステップを持つ2階分散手法の性能評価を行った。
本稿では,更新のための2階ローカル情報とグローバルライン検索を用いて,結果の局所的特異性に対処する新たな変種を提案する。
論文 参考訳(メタデータ) (2021-09-06T12:04:08Z) - Model Selection for Offline Reinforcement Learning: Practical
Considerations for Healthcare Settings [13.376364233897528]
強化学習は治療方針を学習し、医療における意思決定を支援するために用いられる。
モデル選択のための標準的な検証パイプラインは、実際の環境で学習したポリシーを実行する必要がある。
我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。
論文 参考訳(メタデータ) (2021-07-23T02:41:51Z) - Fast Approximate Solutions using Reinforcement Learning for Dynamic
Capacitated Vehicle Routing with Time Windows [3.5232085374661284]
本稿では, CVRP-TWDR (Capacitated Vehicle Routing with Time Windows and Dynamic Routing) の一般クラスに対する, 本質的に並列化, 高速, 近似学習に基づくソリューションを開発する。
艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。
論文 参考訳(メタデータ) (2021-02-24T06:30:16Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。