論文の概要: MORSE: Multi-Objective Reinforcement Learning via Strategy Evolution for Supply Chain Optimization
- arxiv url: http://arxiv.org/abs/2509.06490v1
- Date: Mon, 08 Sep 2025 09:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.046503
- Title: MORSE: Multi-Objective Reinforcement Learning via Strategy Evolution for Supply Chain Optimization
- Title(参考訳): MORSE:サプライチェーン最適化のための戦略進化による多目的強化学習
- Authors: Niki Kotecha, Ehecatl Antonio del Rio Chanona,
- Abstract要約: サプライチェーン管理において、意思決定はコスト削減、サービスレベルの改善、環境の持続可能性といった複数の目的のバランスをとる。
線形プログラミングや進化的アルゴリズムのような従来の多目的最適化手法は、サプライチェーンの動的性質にリアルタイムで適応するのに苦労する。
本稿では,Reinforcement Learning (RL) と Multi-Objective Evolutionary Algorithms (MOEA) を組み合わせて,不確実性下での動的多目的最適化の課題に対処する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In supply chain management, decision-making often involves balancing multiple conflicting objectives, such as cost reduction, service level improvement, and environmental sustainability. Traditional multi-objective optimization methods, such as linear programming and evolutionary algorithms, struggle to adapt in real-time to the dynamic nature of supply chains. In this paper, we propose an approach that combines Reinforcement Learning (RL) and Multi-Objective Evolutionary Algorithms (MOEAs) to address these challenges for dynamic multi-objective optimization under uncertainty. Our method leverages MOEAs to search the parameter space of policy neural networks, generating a Pareto front of policies. This provides decision-makers with a diverse population of policies that can be dynamically switched based on the current system objectives, ensuring flexibility and adaptability in real-time decision-making. We also introduce Conditional Value-at-Risk (CVaR) to incorporate risk-sensitive decision-making, enhancing resilience in uncertain environments. We demonstrate the effectiveness of our approach through case studies, showcasing its ability to respond to supply chain dynamics and outperforming state-of-the-art methods in an inventory management case study. The proposed strategy not only improves decision-making efficiency but also offers a more robust framework for managing uncertainty and optimizing performance in supply chains.
- Abstract(参考訳): サプライチェーン管理において、意思決定はコスト削減、サービスレベルの改善、環境の持続可能性といった、複数の矛盾する目標のバランスを伴うことが多い。
線形プログラミングや進化的アルゴリズムのような従来の多目的最適化手法は、サプライチェーンの動的性質にリアルタイムで適応するのに苦労する。
本稿では,Reinforcement Learning (RL) と Multi-Objective Evolutionary Algorithms (MOEA) を組み合わせて,不確実性下での動的多目的最適化の課題に対処する手法を提案する。
提案手法はMOEAを利用してポリシーニューラルネットワークのパラメータ空間を探索し,ポリシーの正面にパレートを生成する。
これにより、意思決定者は、現在のシステム目標に基づいて動的に切り替えられる多様なポリシーを持つことができ、リアルタイムな意思決定における柔軟性と適応性を確保することができます。
また,リスクに敏感な意思決定を取り入れ,不確実な環境でのレジリエンスを高めるために,CVaR(Conditional Value-at-Risk)を導入する。
本研究では, 在庫管理事例スタディにおいて, サプライチェーンのダイナミックスに反応する能力と, 最先端の手法より優れた方法を示すとともに, ケーススタディによるアプローチの有効性を実証する。
提案した戦略は意思決定効率を向上するだけでなく、不確実性を管理し、サプライチェーンのパフォーマンスを最適化するためのより堅牢なフレームワークを提供する。
関連論文リスト
- Optimizing Multi-Tier Supply Chain Ordering with LNN+XGBoost: Mitigating the Bullwhip Effect [0.0]
本研究では,多層サプライチェーンの順序付け戦略を最適化するハイブリッドLNNとXGBoostモデルを提案する。
LNNの動的特徴抽出とXGBoostのグローバル最適化機能を活用することで、ブルウィップ効果を緩和し、累積収益性を高めることを目指している。
論文 参考訳(メタデータ) (2025-07-28T23:24:54Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - A Re-solving Heuristic for Dynamic Assortment Optimization with Knapsack Constraints [14.990988698038686]
資源knapsack制約下でのMNLを用いたマルチステージ動的アソシエーション最適化問題について検討する。
正確な最適動的アソシエーション解を計算的に抽出可能とすることで、決定論的線形プログラムを周期的に最適化する再解法を実践的戦略として採用する。
目的の分母を制約に効果的に変換するエポックな新しい再解法を提案する。
論文 参考訳(メタデータ) (2024-07-08T02:40:20Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - A Robust Policy Bootstrapping Algorithm for Multi-objective
Reinforcement Learning in Non-stationary Environments [15.794728813746397]
多目的強化学習法は、多目的最適化手法で強化学習パラダイムを融合させる。
これらの方法の大きな欠点の1つは、環境における非定常力学への適応性の欠如である。
本研究では,非定常環境において,凸カバレッジの集合をオンライン的に頑健に進化させることのできる,新しい多目的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T02:15:12Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - Interpretable Reinforcement Learning via Neural Additive Models for
Inventory Management [3.714118205123092]
我々は、多段階、すなわちサプライチェーンのための動的在庫発注ポリシーの開発に注力する。
従来の在庫最適化手法は、静的リオーダーポリシーを決定することを目的としている。
本稿では,従来の静的ポリシーと同程度に解釈可能な強化学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T10:13:32Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。