論文の概要: Reinforcement Learning for Multi-Objective Multi-Echelon Supply Chain Optimisation
- arxiv url: http://arxiv.org/abs/2507.19788v1
- Date: Sat, 26 Jul 2025 04:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.189173
- Title: Reinforcement Learning for Multi-Objective Multi-Echelon Supply Chain Optimisation
- Title(参考訳): 多目的多面体供給チェーン最適化のための強化学習
- Authors: Rifny Rachman, Josh Tingey, Richard Allmendinger, Pradyumn Shukla, Wei Pan,
- Abstract要約: 重み付き和で修正した元来の単目的RLアルゴリズムに対してベンチマークした多目的強化学習(RL)法を用いてモデルを評価する。
我々は、カスタマイズ可能なシミュレータを用いて、様々なネットワーク複雑度の実験を行い、典型的な現実世界の課題を模倣する。
このモデルはサプライチェーンの経路をまたいだ生産量と納入量を決定し、競合する目標間のほぼ最適なトレードオフを達成する。
- 参考スコア(独自算出の注目度): 3.1194372040101928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study develops a generalised multi-objective, multi-echelon supply chain optimisation model with non-stationary markets based on a Markov decision process, incorporating economic, environmental, and social considerations. The model is evaluated using a multi-objective reinforcement learning (RL) method, benchmarked against an originally single-objective RL algorithm modified with weighted sum using predefined weights, and a multi-objective evolutionary algorithm (MOEA)-based approach. We conduct experiments on varying network complexities, mimicking typical real-world challenges using a customisable simulator. The model determines production and delivery quantities across supply chain routes to achieve near-optimal trade-offs between competing objectives, approximating Pareto front sets. The results demonstrate that the primary approach provides the most balanced trade-off between optimality, diversity, and density, further enhanced with a shared experience buffer that allows knowledge transfer among policies. In complex settings, it achieves up to 75\% higher hypervolume than the MOEA-based method and generates solutions that are approximately eleven times denser, signifying better robustness, than those produced by the modified single-objective RL method. Moreover, it ensures stable production and inventory levels while minimising demand loss.
- Abstract(参考訳): 本研究では,マルコフ決定プロセスに基づく多目的・多目的サプライチェーン最適化モデルを構築し,経済・環境・社会的な考察を取り入れた。
このモデルは,事前定義された重みを用いた重み付き和で修正した元来の単目的RLアルゴリズムと,多目的進化アルゴリズム(MOEA)に基づくアプローチを用いて評価される。
我々は、カスタマイズ可能なシミュレータを用いて、様々なネットワーク複雑度の実験を行い、典型的な現実世界の課題を模倣する。
このモデルはサプライチェーンの経路をまたいだ生産量と納入量を決定し、競合する目標間のほぼ最適なトレードオフを達成し、パレートのフロントセットを近似する。
その結果, 最適性, 多様性, 密度の最もバランスのとれたトレードオフが, 政策間の知識伝達を可能にする共有経験バッファによってさらに強化されることが示唆された。
複雑な環境では、MOEA法よりも最大75倍高い超体積を達成し、修正された単目的RL法よりも約11倍の密度の溶液を生成する。
さらに、需要損失を最小限に抑えつつ、安定した生産水準と在庫水準を確保する。
関連論文リスト
- REMoH: A Reflective Evolution of Multi-objective Heuristics approach via Large Language Models [39.85828629779943]
多目的最適化は、複雑な意思決定タスクにおいて基礎となる。
大規模言語モデル(LLM)の最近の進歩は、説明可能性、適応性、推論の強化を提供する。
本研究では,NSGA-II と LLM を融合した新たなフレームワークである REMoH (Reflectionive Evolution of Multi-Objective Heuristics) を提案する。
論文 参考訳(メタデータ) (2025-06-09T13:38:28Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。
PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。
PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文 参考訳(メタデータ) (2025-01-12T10:43:05Z) - Surrogate-assisted multi-objective design of complex multibody systems [1.1650821883155187]
本稿では,サロゲートモデリングと多目的最適化の相反するアプローチを提案する。
我々は多目的最適化、サンプリングおよび代理モデリングに関する異なる戦略を比較した。
論文 参考訳(メタデータ) (2024-12-19T13:48:49Z) - LLM4Rerank: LLM-based Auto-Reranking Framework for Recommendations [51.76373105981212]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。
そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。
カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文 参考訳(メタデータ) (2024-06-18T09:29:18Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。