論文の概要: Adaptive Inventory Strategies using Deep Reinforcement Learning for Dynamic Agri-Food Supply Chains
- arxiv url: http://arxiv.org/abs/2507.16670v1
- Date: Tue, 22 Jul 2025 15:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.168415
- Title: Adaptive Inventory Strategies using Deep Reinforcement Learning for Dynamic Agri-Food Supply Chains
- Title(参考訳): 動的アグリフード供給鎖の深部強化学習を用いた適応型インベントリ戦略
- Authors: Amandeep Kaur, Gyan Prakash,
- Abstract要約: 本研究は,アグリフード製品の在庫管理とリードタイムの不確実性に着目した。
価値とポリシーに基づくDRLアプローチの両方の利点を、不確実性下での在庫最適化に組み合わせた、新しいDeep Reinforcement Learning (DRL)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.7930468380414317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agricultural products are often subject to seasonal fluctuations in production and demand. Predicting and managing inventory levels in response to these variations can be challenging, leading to either excess inventory or stockouts. Additionally, the coordination among stakeholders at various level of food supply chain is not considered in the existing body of literature. To bridge these research gaps, this study focuses on inventory management of agri-food products under demand and lead time uncertainties. By implementing effective inventory replenishment policy results in maximize the overall profit throughout the supply chain. However, the complexity of the problem increases due to these uncertainties and shelf-life of the product, that makes challenging to implement traditional approaches to generate optimal set of solutions. Thus, the current study propose a novel Deep Reinforcement Learning (DRL) algorithm that combines the benefits of both value- and policy-based DRL approaches for inventory optimization under uncertainties. The proposed algorithm can incentivize collaboration among stakeholders by aligning their interests and objectives through shared optimization goal of maximizing profitability along the agri-food supply chain while considering perishability, and uncertainty simultaneously. By selecting optimal order quantities with continuous action space, the proposed algorithm effectively addresses the inventory optimization challenges. To rigorously evaluate this algorithm, the empirical data from fresh agricultural products supply chain inventory is considered. Experimental results corroborate the improved performance of the proposed inventory replenishment policy under stochastic demand patterns and lead time scenarios. The research findings hold managerial implications for policymakers to manage the inventory of agricultural products more effectively under uncertainty.
- Abstract(参考訳): 農産物は、しばしば生産と需要の季節的な変動にさらされる。
これらの変動に対応する在庫レベルの予測と管理は困難であり、過剰在庫または在庫のどちらかにつながる。
また、既存の文献では、様々なレベルの食品サプライチェーンの利害関係者間の調整は考慮されていない。
これらの研究ギャップを埋めるために,本研究では,需要条件下でのアグリフード製品の在庫管理とリードタイムの不確実性に着目した。
効果的な在庫補充政策を実施することで、サプライチェーン全体の利益を最大化することができる。
しかし、これらの不確実性や製品のシェルフライフにより、問題の複雑さが増大し、最適なソリューションセットを生成するために従来のアプローチを実装するのが困難になる。
そこで本研究では,不確実性下での在庫最適化のための価値とポリシーに基づくDRLアプローチの利点を組み合わせた,新しいDeep Reinforcement Learning (DRL)アルゴリズムを提案する。
提案アルゴリズムは,アグリフードサプライチェーンに沿った利益率の最大化を目標とし,利害関係者間の協調を動機付け,同時に不確実性を考慮しつつ,利益率を最大化することで,利害関係者間の協調を動機付けることができる。
連続的な行動空間で最適な順序数を選択することにより、提案アルゴリズムは在庫最適化の課題を効果的に解決する。
このアルゴリズムを厳格に評価するために,新鮮農産物サプライチェーン在庫の実証データを考察した。
実験結果は,確率的需要パターンとリードタイムシナリオに基づいて,提案した在庫補充政策の性能改善を裏付けるものである。
調査の結果は、政策立案者が不確実性の下でより効果的に農産物の在庫を管理することの経営上の意味を示唆している。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Classical and Deep Reinforcement Learning Inventory Control Policies for Pharmaceutical Supply Chains with Perishability and Non-Stationarity [1.0124625066746595]
本稿では, 医薬品サプライチェーンの在庫管理方針について検討し, パーシビリティ, 不確実性, 非定常需要といった課題に対処する。
当社は3つのポリシー--order-up-to(OUT)、予測在庫レベル(PIL)、深層強化学習(DRL)をベンチマークする。
論文 参考訳(メタデータ) (2025-01-18T22:40:33Z) - Enhancing Supply Chain Visibility with Knowledge Graphs and Large Language Models [49.898152180805454]
本稿では,サプライチェーンの可視性を高めるために,知識グラフ(KG)と大規模言語モデル(LLM)を活用した新しいフレームワークを提案する。
我々のゼロショットLPM駆動アプローチは、様々な公共情報源からのサプライチェーン情報の抽出を自動化する。
NERとREタスクの精度が高く、複雑な多層供給ネットワークを理解する効果的なツールを提供する。
論文 参考訳(メタデータ) (2024-08-05T17:11:29Z) - Multiple Independent DE Optimizations to Tackle Uncertainty and
Variability in Demand in Inventory Management [0.0]
本研究の目的は、不確実な需要パターンの文脈において、在庫コストを最小限に抑えるための最も効果的な戦略を明らかにすることである。
最適な解を見つけるために、この研究はメタヒューリスティックなアプローチに焦点を当て、複数のアルゴリズムを比較する。
論文 参考訳(メタデータ) (2023-09-22T13:15:02Z) - Distributional constrained reinforcement learning for supply chain
optimization [0.0]
本稿では、強化学習における信頼性の高い制約満足度のための新しいアプローチである分散制約政策最適化(DCPO)を紹介する。
我々は、DCPOがRLポリシーの収束率を改善し、トレーニングの終了までに信頼性の高い制約満足度を確保することを示す。
論文 参考訳(メタデータ) (2023-02-03T13:43:02Z) - Multi-Agent Reinforcement Learning with Shared Resources for Inventory
Management [62.23979094308932]
私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。
共有資源ゲーム(SRSG)としてこの問題を定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。
実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることが実証された。
論文 参考訳(メタデータ) (2022-12-15T09:35:54Z) - A Simulation Environment and Reinforcement Learning Method for Waste
Reduction [50.545552995521774]
本稿では, 流通の観点から, 食料品店の在庫を消耗品で補充する際の問題点を考察する。
目的は、ごみを最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。
我々は, エージェントの行動に合わせた行動を示す新しい強化学習タスクとして, 在庫再備の枠組みを定めている。
論文 参考訳(メタデータ) (2022-05-30T22:48:57Z) - Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply
Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。
本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文 参考訳(メタデータ) (2022-04-20T16:33:01Z) - Deep Policy Iteration with Integer Programming for Inventory Management [8.27175065641495]
本稿では,大規模なアクセス可能な行動空間と状態依存制約を用いた長期割引報酬問題を最適化するための枠組みを提案する。
提案したプログラム可能なアクター強化学習(PARL)は,ニューラルネットワーク(NN)を利用して値関数を近似するディープ・ポリシー法を用いる。
我々は、提案アルゴリズムを最先端のRLアルゴリズムに対してベンチマークし、一般的に補充を使い、既存の手法を平均14.7%も上回っていることを発見した。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。