論文の概要: Reinforcement Learning for Efficient Returns Management
- arxiv url: http://arxiv.org/abs/2501.14394v1
- Date: Fri, 24 Jan 2025 10:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:25.526062
- Title: Reinforcement Learning for Efficient Returns Management
- Title(参考訳): 効率的なリターンマネジメントのための強化学習
- Authors: Pascal Linden, Nathalie Paul, Tim Wirtz, Stefan Wrobel,
- Abstract要約: 小売店では、返品品は、店へのさらなる出荷に関する決定が下されるまで、通常中間保管庫に置かれる。
倉庫に着くとすぐに製品の位置決定ができる代替ソリューションを考える。
そこで本研究では,商品をナップサック(店舗)にまとめて総合価値(予測収益)を最大化するための,新たな強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 2.3159856634162854
- License:
- Abstract: In retail warehouses, returned products are typically placed in an intermediate storage until a decision regarding further shipment to stores is made. The longer products are held in storage, the higher the inefficiency and costs of the returns management process, since enough storage area has to be provided and maintained while the products are not placed for sale. To reduce the average product storage time, we consider an alternative solution where reallocation decisions for products can be made instantly upon their arrival in the warehouse allowing only a limited number of products to still be stored simultaneously. We transfer the problem to an online multiple knapsack problem and propose a novel reinforcement learning approach to pack the items (products) into the knapsacks (stores) such that the overall value (expected revenue) is maximized. Empirical evaluations on simulated data demonstrate that, compared to the usual offline decision procedure, our approach comes with a performance gap of only 3% while significantly reducing the average storage time of a product by 96%.
- Abstract(参考訳): 小売店では、返品品は、店へのさらなる出荷に関する決定が下されるまで、通常中間保管庫に置かれる。
保存期間が長ければ長いほど、返却管理プロセスの非効率性とコストが高くなります。
平均商品保管時間を短縮するため,倉庫に到着した時点で商品の位置決定を瞬時に行うことで,限られた数の商品しか同時に保存できないような代替ソリューションを検討する。
課題をオンラインマルチクナップサック問題に移行し、商品(商品)をknapsacks(店舗)にまとめ、全体的な価値(予測収益)を最大化するための新しい強化学習手法を提案する。
シミュレーションデータを用いた実証評価では,通常のオフライン決定手順と比較して,パフォーマンスギャップは3%に過ぎず,平均記憶時間を96%削減できることがわかった。
関連論文リスト
- Efficient Inference of Sub-Item Id-based Sequential Recommendation Models with Millions of Items [63.117573355917465]
PQTopKアルゴリズムを用いてRecJPQに基づくモデルの推論効率を改善することができることを示す。
我々は、RecJPQで強化されたSASRecを、元のSASRecの推論手法に比べて4.5倍、RecJPQコードで実装された手法に比べて1.56倍の速度で高速化する。
論文 参考訳(メタデータ) (2024-08-19T13:43:48Z) - Using General Value Functions to Learn Domain-Backed Inventory
Management Policies [2.0257616108612373]
既存の文献では、一般的な価値関数(GVF)は主に補助的なタスク学習に使われてきた。
我々は、この能力を用いて、ストックアウト確率や無駄量などのドメインクリティカルな特性に基づいてGVFを訓練する。
本稿では、GVF予測を用いて、RLエージェントが提案する決定について、さらにドメイン支援された洞察を提供することを示す。
論文 参考訳(メタデータ) (2023-11-03T08:35:54Z) - Online Continual Learning Without the Storage Constraint [67.66235695269839]
我々は、kNN分類器を固定された事前訓練された特徴抽出器とともに継続的に更新する簡単なアルゴリズムを提案する。
高速に変化するストリームに適応し、安定性のギャップをゼロにし、小さな計算予算内で動作し、機能のみを格納することで、ストレージ要件を低くすることができる。
2つの大規模オンライン連続学習データセットにおいて、既存の手法を20%以上の精度で上回ることができる。
論文 参考訳(メタデータ) (2023-05-16T08:03:07Z) - Multi-Agent Reinforcement Learning with Shared Resources for Inventory
Management [62.23979094308932]
私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。
共有資源ゲーム(SRSG)としてこの問題を定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。
実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることが実証された。
論文 参考訳(メタデータ) (2022-12-15T09:35:54Z) - A Simulation Environment and Reinforcement Learning Method for Waste
Reduction [50.545552995521774]
本稿では, 流通の観点から, 食料品店の在庫を消耗品で補充する際の問題点を考察する。
目的は、ごみを最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。
我々は, エージェントの行動に合わせた行動を示す新しい強化学習タスクとして, 在庫再備の枠組みを定めている。
論文 参考訳(メタデータ) (2022-05-30T22:48:57Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Carousel Memory: Rethinking the Design of Episodic Memory for Continual
Learning [19.260402028696916]
継続的な学習(CL)は、以前のタスクから学んだ知識を忘れずに、連続したタスクストリームから学習することを目的としている。
以前の研究では、新しい非i.d.データから学習しながら、過去の観測されたサンプルのサブセットを格納するエピソードメモリ(EM)を利用している。
メモリとストレージ間のサンプルを効率よく移行させることにより,過去の経験を保存し,忘れを軽減すべく,豊富なストレージを活用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:27:45Z) - Intelligent Warehouse Allocator for Optimal Regional Utilization [0.0]
この倉庫配置問題に対する効率的なソリューションを構築するために、機械学習と最適化手法を使用します。
このソリューションを用いてバックテストを行い、2つの重要な指標である地域利用率(RU)と2日配達率(2DD)において大きな上昇を示すことにより、このモデルの効率性を検証する。
論文 参考訳(メタデータ) (2020-07-09T21:46:15Z) - Reinforcement Learning for Multi-Product Multi-Node Inventory Management
in Supply Chains [17.260459603456745]
本稿では,サプライチェーンにおける多製品在庫管理への強化学習(RL)の適用について述べる。
実験の結果,提案手法は製品販売の最大化と商品の無駄を最小化する多目的報酬を処理可能であることが示された。
論文 参考訳(メタデータ) (2020-06-07T04:02:59Z) - A Deep Reinforcement Learning Framework for Continuous Intraday Market
Bidding [69.37299910149981]
再生可能エネルギー源統合の成功の鍵となる要素は、エネルギー貯蔵の利用である。
欧州の継続的な日内市場におけるエネルギー貯蔵の戦略的関与をモデル化するための新しい枠組みを提案する。
本アルゴリズムの分散バージョンは, サンプル効率のため, この問題を解決するために選択される。
その結果, エージェントは, ベンチマーク戦略よりも平均的収益率の高い政策に収束することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T13:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。