論文の概要: GLDQN: Explicitly Parameterized Quantile Reinforcement Learning for
Waste Reduction
- arxiv url: http://arxiv.org/abs/2205.15455v1
- Date: Mon, 30 May 2022 22:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 07:01:27.009497
- Title: GLDQN: Explicitly Parameterized Quantile Reinforcement Learning for
Waste Reduction
- Title(参考訳): gldqn: 廃棄物削減のためのパラメータ化量子化強化学習
- Authors: Sami Jullien, Mozhdeh Ariannezhad, Paul Groth, Maarten de Rijke
- Abstract要約: 食料品店の在庫を消耗品で長期にわたって補充する問題について検討する。
目的は、ごみを最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。
我々は, エージェントの行動に合わせた行動を示す新しい強化学習タスクとして, 在庫再備の枠組みを定めている。
本稿では,報奨空間上の一般化分布を学習する分散強化学習アルゴリズムGLDQNを提案する。
- 参考スコア(独自算出の注目度): 50.545552995521774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of restocking a grocery store's inventory with
perishable items over time, from a distributional point of view. The objective
is to maximize sales while minimizing waste, with uncertainty about the actual
consumption by costumers. This problem is of a high relevance today, given the
growing demand for food and the impact of food waste on the environment, the
economy, and purchasing power. We frame inventory restocking as a new
reinforcement learning task that exhibits stochastic behavior conditioned on
the agent's actions, making the environment partially observable. We introduce
a new reinforcement learning environment based on real grocery store data and
expert knowledge. This environment is highly stochastic, and presents a unique
challenge for reinforcement learning practitioners. We show that uncertainty
about the future behavior of the environment is not handled well by classical
supply chain algorithms, and that distributional approaches are a good way to
account for the uncertainty. We also present GLDQN, a new distributional
reinforcement learning algorithm that learns a generalized lambda distribution
over the reward space. We show that GLDQN outperforms other distributional
reinforcement learning approaches in our partially observable environments, in
both overall reward and generated waste.
- Abstract(参考訳): 本稿では, 流通の観点から, 食料品店の在庫を消耗品で補充する際の問題点を考察する。
目的は廃棄物を最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。
この問題は、食料需要の増加と食品廃棄物が環境、経済、購買力に与える影響を考えると、今日では高い関係にある。
我々は, 環境を部分的に観察できるような, エージェントの行動に合わせた確率的行動を示す新しい強化学習タスクとして, 在庫再備を行う。
我々は,実店舗データと専門家の知識に基づく新しい強化学習環境を導入する。
この環境は非常に確率的であり、強化学習実践者にはユニークな課題である。
本研究では, 従来のサプライチェーンアルゴリズムでは環境の将来の挙動の不確実性はうまく扱えないこと, 分布的アプローチが不確実性を考慮する良い方法であることを示す。
また,報奨空間上の一般化ラムダ分布を学習する新しい分布強化学習アルゴリズムgldqnを提案する。
GLDQNは、我々の部分的に観測可能な環境における他の分散強化学習手法よりも、全体報酬と生成廃棄物の両方において優れていることを示す。
関連論文リスト
- An Optimistic-Robust Approach for Dynamic Positioning of Omnichannel
Inventories [10.353243563465124]
我々は,データ駆動型楽観的二元性在庫最適化(BIO)戦略を新たに導入する。
我々の実験は、在庫管理に対する従来のアプローチを再考することで、大きな利益が得られることを示している。
論文 参考訳(メタデータ) (2023-10-17T23:10:57Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Online Learning with Costly Features in Non-stationary Environments [6.009759445555003]
シーケンシャルな意思決定の問題では、長期的な報酬を最大化することが第一の目標である。
現実世界の問題では、有益な情報を集めるのにしばしばコストがかかる。
時間内にサブ線形後悔を保証するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-07-18T16:13:35Z) - Enhancing Supply Chain Resilience: A Machine Learning Approach for
Predicting Product Availability Dates Under Disruption [2.294014185517203]
新型コロナウイルスのパンデミックや政治的・地域的な紛争が世界的なサプライチェーンに大きな打撃を与えている。
正確な可用性の予測は 物流運用を成功させる上で 重要な役割を担います
簡易回帰、ラッソ回帰、リッジ回帰、弾性ネット、ランダムフォレスト(RF)、グラディエントブースティングマシン(GBM)、ニューラルネットワークモデルなど、いくつかの回帰モデルを評価する。
論文 参考訳(メタデータ) (2023-04-28T15:22:20Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Reinforcement Learning for Multi-Product Multi-Node Inventory Management
in Supply Chains [17.260459603456745]
本稿では,サプライチェーンにおける多製品在庫管理への強化学習(RL)の適用について述べる。
実験の結果,提案手法は製品販売の最大化と商品の無駄を最小化する多目的報酬を処理可能であることが示された。
論文 参考訳(メタデータ) (2020-06-07T04:02:59Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。