Fugu-MT 論文翻訳(概要): Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide

論文の概要: Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide

arxiv url: http://arxiv.org/abs/2411.00515v1
Date: Fri, 01 Nov 2024 11:20:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.269377
Title: Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide
Title（参考訳）: インベントリマネジメントにおけるゼロショットの一般化
Authors: Tarkan Temizöz, Christina Imdahl, Remco Dijkman, Douniel Lamghari-Idrissi, Willem van Jaarsveld,
Abstract要約: 現実世界の在庫管理における深層強化学習(DRL)の展開が課題となっている。これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下での一般有能エージェント(GCAs)の訓練に対処する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying deep reinforcement learning (DRL) in real-world inventory management presents challenges, including dynamic environments and uncertain problem parameters, e.g. demand and lead time distributions. These challenges highlight a research gap, suggesting a need for a unifying framework to model and solve sequential decision-making under parameter uncertainty. We address this by exploring an underexplored area of DRL for inventory management: training generally capable agents (GCAs) under zero-shot generalization (ZSG). Here, GCAs are advanced DRL policies designed to handle a broad range of sampled problem instances with diverse inventory challenges. ZSG refers to the ability to successfully apply learned policies to unseen instances with unknown parameters without retraining. We propose a unifying Super-Markov Decision Process formulation and the Train, then Estimate and Decide (TED) framework to train and deploy a GCA tailored to inventory management applications. The TED framework consists of three phases: training a GCA on varied problem instances, continuously estimating problem parameters during deployment, and making decisions based on these estimates. Applied to periodic review inventory problems with lost sales, cyclic demand patterns, and stochastic lead times, our trained agent, the Generally Capable Lost Sales Network (GC-LSN) consistently outperforms well-known traditional policies when problem parameters are known. Moreover, under conditions where demand and/or lead time distributions are initially unknown and must be estimated, we benchmark against online learning methods that provide worst-case performance guarantees. Our GC-LSN policy, paired with the Kaplan-Meier estimator, is demonstrated to complement these methods by providing superior empirical performance.
Abstract（参考訳）: 現実世界の在庫管理における深層強化学習(DRL)の展開は、動的環境や不確実な問題パラメータ、例えば需要、リードタイムの分布などの課題を提示している。これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下で一般有能エージェント(GCAs)を訓練することで、この問題に対処する。ここでは、GCAは多様な在庫問題を伴う広範囲のサンプル問題インスタンスを扱うために設計された高度なDRLポリシーである。 ZSGは、学習したポリシーを未知のパラメータを持つインスタンスに、再トレーニングせずにうまく適用できる能力である。我々は,在庫管理アプリケーションに適したGCAをトレーニングし,展開するための,スーパーマルコフ決定プロセスとTrain,Estimate and Decide(TED)フレームワークを提案する。 TEDフレームワークは3つのフェーズで構成されている。GCAをさまざまな問題インスタンスでトレーニングし、デプロイ中の問題パラメータを継続的に推定し、これらの見積に基づいて決定する。損失販売、循環的需要パターン、確率的リードタイムを含む定期的な在庫問題に対して、トレーニングされたエージェントであるGC-LSN(Generally Capable Lost Sales Network)は、問題パラメータが知られている場合、よく知られた従来のポリシーを一貫して上回ります。さらに,需要分布やリードタイム分布が不明であり,推定しなくてはならない状況下では,最悪の性能保証を提供するオンライン学習手法に対してベンチマークを行う。本稿では,Kaplan-Meier 推定器と組み合わせた GC-LSN ポリシーを用いて,実験性能を向上し,これらの手法を補完することを示した。

関連論文リスト

Structure-Informed Deep Reinforcement Learning for Inventory Management [8.697068617006964]
本稿では,古典的在庫管理問題に対するDeep Reinforcement Learningの適用について検討する。我々はDirectBackpropに基づくDRLアルゴリズムをいくつかの基本的な在庫管理シナリオに適用する。本稿では,我々の汎用DRL実装が,確立したベンチマークや分布に対して競争的に,あるいは性能的に優れていることを示す。
論文参考訳（メタデータ） (2025-07-29T17:41:45Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
Neural Coordination and Capacity Control for Inventory Management [4.533373101620897]
この論文は、キャパシティ制御機構のバックテストと、在庫管理のための深層強化学習の最近の進歩と相容れないキャパシティ制御機構のバックテストとバックテストとは何を意味するのかという質問に動機づけられている。まず、Amazonのキャパシティ制限の1つの歴史的なサンプルパスしか持たないため、実世界のシナリオの空間をカバーする制約パスの分布からサンプリングする手法を提案する。第2に,Madeka et al. 2022のExo-IDP(Exogenous Decision Process)の定式化を拡張して,定期レビュー在庫管理問題に留意し,一定の容量を示す。
論文参考訳（メタデータ） (2024-09-24T16:23:10Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Combinatorial Optimization with Policy Adaptation using Latent Space Search [44.12073954093942]
本稿では,複雑なNPハード問題を解くために,パフォーマンスアルゴリズムを設計するための新しいアプローチを提案する。我々の検索戦略は11の標準ベンチマークタスクにおける最先端のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2023-11-13T12:24:54Z)
Using General Value Functions to Learn Domain-Backed Inventory Management Policies [2.0257616108612373]
既存の文献では、一般的な価値関数(GVF)は主に補助的なタスク学習に使われてきた。我々は、この能力を用いて、ストックアウト確率や無駄量などのドメインクリティカルな特性に基づいてGVFを訓練する。本稿では、GVF予測を用いて、RLエージェントが提案する決定について、さらにドメイン支援された洞察を提供することを示す。
論文参考訳（メタデータ） (2023-11-03T08:35:54Z)
Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文参考訳（メタデータ） (2023-07-25T21:38:08Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Product Segmentation Newsvendor Problems: A Robust Learning Approach [6.346881818701668]
商品セグメンテーションニューズベンダー問題は、ニューズベンダー問題の新たな変種である。本稿では、ロバストな政策の魅力を高めるために、ロバストな学習という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-07-08T10:13:10Z)
Math Programming based Reinforcement Learning for Multi-Echelon Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。 PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文参考訳（メタデータ） (2021-12-04T01:40:34Z)
Deep Controlled Learning for Inventory Control [0.0]
在庫管理への深層強化学習(DRL)の適用は、新たな分野である。従来のDRLアルゴリズムは、もともとゲームプレイングやロボティクスといった多様な分野向けに開発されたもので、在庫管理によって引き起こされる特定の課題には適していない。本稿では,高数値問題を対象とした新しいDRLアルゴリズムであるDeep Learning (DCL)を提案する。
論文参考訳（メタデータ） (2020-11-30T18:53:08Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。