Fugu-MT 論文翻訳(概要): A Simulation Environment and Reinforcement Learning Method for Waste Reduction

論文の概要: A Simulation Environment and Reinforcement Learning Method for Waste Reduction

arxiv url: http://arxiv.org/abs/2205.15455v2
Date: Fri, 26 May 2023 12:10:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 00:17:39.717210
Title: A Simulation Environment and Reinforcement Learning Method for Waste Reduction
Title（参考訳）: 廃棄物削減のためのシミュレーション環境と強化学習方法
Authors: Sami Jullien, Mozhdeh Ariannezhad, Paul Groth, Maarten de Rijke
Abstract要約: 本稿では, 流通の観点から, 食料品店の在庫を消耗品で補充する際の問題点を考察する。目的は、ごみを最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。我々は, エージェントの行動に合わせた行動を示す新しい強化学習タスクとして, 在庫再備の枠組みを定めている。
参考スコア（独自算出の注目度）: 50.545552995521774
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In retail (e.g., grocery stores, apparel shops, online retailers), inventory managers have to balance short-term risk (no items to sell) with long-term-risk (over ordering leading to product waste). This balancing task is made especially hard due to the lack of information about future customer purchases. In this paper, we study the problem of restocking a grocery store's inventory with perishable items over time, from a distributional point of view. The objective is to maximize sales while minimizing waste, with uncertainty about the actual consumption by costumers. This problem is of a high relevance today, given the growing demand for food and the impact of food waste on the environment, the economy, and purchasing power. We frame inventory restocking as a new reinforcement learning task that exhibits stochastic behavior conditioned on the agent's actions, making the environment partially observable. We make two main contributions. First, we introduce a new reinforcement learning environment, RetaiL, based on real grocery store data and expert knowledge. This environment is highly stochastic, and presents a unique challenge for reinforcement learning practitioners. We show that uncertainty about the future behavior of the environment is not handled well by classical supply chain algorithms, and that distributional approaches are a good way to account for the uncertainty. Second, we introduce GTDQN, a distributional reinforcement learning algorithm that learns a generalized Tukey Lambda distribution over the reward space. GTDQN provides a strong baseline for our environment. It outperforms other distributional reinforcement learning approaches in this partially observable setting, in both overall reward and reduction of generated waste.
Abstract（参考訳）: 小売業(食料品店、アパレル店、オンライン小売業など)では、在庫管理職は短期的なリスク(販売するアイテムがない)と長期リスク(製品廃棄物につながる注文)のバランスをとる必要がある。このバランス作業は、将来の顧客の購入に関する情報が不足しているため、特に難しい。本稿では,流通の観点から,食料品店の在庫を消耗品で補充する際の問題点について考察する。目的は廃棄物を最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。この問題は、食料需要の増加と食品廃棄物が環境、経済、購買力に与える影響を考えると、今日では高い関係にある。我々は, 環境を部分的に観察できるような, エージェントの行動に合わせた確率的行動を示す新しい強化学習タスクとして, 在庫再備を行う。主な貢献は2つある。まず,実店舗データと専門家の知識をもとに,新たな強化学習環境「小売」を提案する。この環境は非常に確率的であり、強化学習実践者にはユニークな課題である。本研究では, 従来のサプライチェーンアルゴリズムでは環境の将来の挙動の不確実性はうまく扱えないこと, 分布的アプローチが不確実性を考慮する良い方法であることを示す。第2に,報奨空間上の一般化されたTukey Lambda分布を学習する分散強化学習アルゴリズムGTDQNを導入する。 GTDQNは環境に強力なベースラインを提供します。この部分観測可能な環境では, 全体の報奨と廃棄物の削減の両方において, 他の分散強化学習手法よりも優れている。

関連論文リスト

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文参考訳（メタデータ） (2025-03-27T15:36:30Z)
An Optimistic-Robust Approach for Dynamic Positioning of Omnichannel Inventories [10.353243563465124]
我々は,データ駆動型楽観的二元性在庫最適化(BIO)戦略を新たに導入する。我々の実験は、在庫管理に対する従来のアプローチを再考することで、大きな利益が得られることを示している。
論文参考訳（メタデータ） (2023-10-17T23:10:57Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Online Learning with Costly Features in Non-stationary Environments [6.009759445555003]
シーケンシャルな意思決定の問題では、長期的な報酬を最大化することが第一の目標である。現実世界の問題では、有益な情報を集めるのにしばしばコストがかかる。時間内にサブ線形後悔を保証するアルゴリズムを開発する。
論文参考訳（メタデータ） (2023-07-18T16:13:35Z)
Enhancing Supply Chain Resilience: A Machine Learning Approach for Predicting Product Availability Dates Under Disruption [2.294014185517203]
新型コロナウイルスのパンデミックや政治的・地域的な紛争が世界的なサプライチェーンに大きな打撃を与えている。正確な可用性の予測は物流運用を成功させる上で重要な役割を担います簡易回帰、ラッソ回帰、リッジ回帰、弾性ネット、ランダムフォレスト(RF)、グラディエントブースティングマシン(GBM)、ニューラルネットワークモデルなど、いくつかの回帰モデルを評価する。
論文参考訳（メタデータ） (2023-04-28T15:22:20Z)
Learning to Price Supply Chain Contracts against a Learning Retailer [3.7814216736076434]
データ駆動型サプライヤが直面するサプライチェーン契約設計問題について検討する。サプライヤーも小売業者も市場の需要について不透明だ。これらすべてのケースにおいて、私たちの価格ポリシーがサブリニアな後悔の限界につながることが示されています。
論文参考訳（メタデータ） (2022-11-02T04:00:47Z)
Improving Self-supervised Learning with Automated Unsupervised Outlier Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文参考訳（メタデータ） (2021-12-15T14:05:23Z)
Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。返品だ Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文参考訳（メタデータ） (2021-03-20T23:42:50Z)
Coordinated Online Learning for Multi-Agent Systems with Coupled Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文参考訳（メタデータ） (2020-10-21T10:11:17Z)
Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文参考訳（メタデータ） (2020-06-22T17:55:03Z)
Reinforcement Learning for Multi-Product Multi-Node Inventory Management in Supply Chains [17.260459603456745]
本稿では,サプライチェーンにおける多製品在庫管理への強化学習(RL)の適用について述べる。実験の結果,提案手法は製品販売の最大化と商品の無駄を最小化する多目的報酬を処理可能であることが示された。
論文参考訳（メタデータ） (2020-06-07T04:02:59Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。