論文の概要: Deep RL Dual Sourcing Inventory Management with Supply and Capacity Risk Awareness
- arxiv url: http://arxiv.org/abs/2507.14446v2
- Date: Tue, 22 Jul 2025 20:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 12:00:05.647101
- Title: Deep RL Dual Sourcing Inventory Management with Supply and Capacity Risk Awareness
- Title(参考訳): 供給・キャパシティリスクを考慮した深部RLデュアルソーシングインベントリ管理
- Authors: Defeng Liu, Ying Liu, Carson Eisenach,
- Abstract要約: 介入モデルを利用して大規模最適化問題に強化学習(RL)を効率的に適用する方法を検討する。
我々は,サプライチェーン最適化におけるマルチソース多周期在庫管理問題である,現実世界の挑戦的アプリケーションに対するアプローチを実証する。
- 参考スコア(独自算出の注目度): 4.583289433858458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study how to efficiently apply reinforcement learning (RL) for solving large-scale stochastic optimization problems by leveraging intervention models. The key of the proposed methodology is to better explore the solution space by simulating and composing the stochastic processes using pre-trained deep learning (DL) models. We demonstrate our approach on a challenging real-world application, the multi-sourcing multi-period inventory management problem in supply chain optimization. In particular, we employ deep RL models for learning and forecasting the stochastic supply chain processes under a range of assumptions. Moreover, we also introduce a constraint coordination mechanism, designed to forecast dual costs given the cross-products constraints in the inventory network. We highlight that instead of directly modeling the complex physical constraints into the RL optimization problem and solving the stochastic problem as a whole, our approach breaks down those supply chain processes into scalable and composable DL modules, leading to improved performance on large real-world datasets. We also outline open problems for future research to further investigate the efficacy of such models.
- Abstract(参考訳): 本研究では、介入モデルを利用して大規模確率最適化問題の解法として強化学習(RL)を効率的に適用する方法を検討する。
提案手法の鍵となるのは、事前学習深層学習(DL)モデルを用いて確率過程をシミュレートし、構成することにより、解空間をよりよく探索することである。
我々は,サプライチェーン最適化におけるマルチソース多周期在庫管理問題である,現実世界の挑戦的アプリケーションに対するアプローチを実証する。
特に,確率的サプライチェーンプロセスの学習と予測に,様々な仮定の下で深いRLモデルを用いる。
さらに、在庫ネットワークにおける製品間制約を考慮し、二重コストを予測するための制約調整機構も導入する。
我々は、複雑な物理的制約を直接RL最適化問題にモデル化し、確率論的問題を全体として解決するのではなく、これらのサプライチェーンプロセスをスケーラブルで構成可能なDLモジュールに分解し、大規模な実世界のデータセットのパフォーマンスを向上させることに重点を置いている。
また,このようなモデルの有効性をさらに調査するため,今後の研究の課題についても概説する。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Iterative Multi-Agent Reinforcement Learning: A Novel Approach Toward Real-World Multi-Echelon Inventory Optimization [0.6990493129893112]
マルチエケロン在庫最適化(MEIO)は、効果的なサプライチェーン管理において重要であるが、その固有の複雑さは重大な課題を引き起こす可能性がある。
近年の研究では、深層強化学習(DRL)が従来の強化学習の代替として有望であることがわかった。
本論文は複雑化に伴うMEIO問題に対するDRLの適用性について考察する。
論文 参考訳(メタデータ) (2025-03-23T20:52:21Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - POMDP inference and robust solution via deep reinforcement learning: An
application to railway optimal maintenance [0.7046417074932257]
深部RLを用いたPMDPの推論とロバストな解法の組み合わせを提案する。
まず、すべての遷移モデルと観測モデルパラメータは、隠れマルコフモデルのマルコフ・チェイン・モンテ・カルロサンプリングによって共同で推論される。
パラメータが不確実なPOMDPは、パラメータ分布を領域ランダム化によって解に組み込んだ深部RL手法によって解決される。
論文 参考訳(メタデータ) (2023-07-16T15:44:58Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Product Segmentation Newsvendor Problems: A Robust Learning Approach [6.346881818701668]
商品セグメンテーションニューズベンダー問題は、ニューズベンダー問題の新たな変種である。
本稿では、ロバストな政策の魅力を高めるために、ロバストな学習という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-07-08T10:13:10Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Deep Policy Iteration with Integer Programming for Inventory Management [8.27175065641495]
本稿では,大規模なアクセス可能な行動空間と状態依存制約を用いた長期割引報酬問題を最適化するための枠組みを提案する。
提案したプログラム可能なアクター強化学習(PARL)は,ニューラルネットワーク(NN)を利用して値関数を近似するディープ・ポリシー法を用いる。
我々は、提案アルゴリズムを最先端のRLアルゴリズムに対してベンチマークし、一般的に補充を使い、既存の手法を平均14.7%も上回っていることを発見した。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。