論文の概要: Iterative Multi-Agent Reinforcement Learning: A Novel Approach Toward Real-World Multi-Echelon Inventory Optimization
- arxiv url: http://arxiv.org/abs/2503.18201v1
- Date: Sun, 23 Mar 2025 20:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:48.625716
- Title: Iterative Multi-Agent Reinforcement Learning: A Novel Approach Toward Real-World Multi-Echelon Inventory Optimization
- Title(参考訳): 反復的マルチエージェント強化学習:実世界のマルチエケロン在庫最適化に向けた新しいアプローチ
- Authors: Georg Ziegner, Michael Choi, Hung Mac Chan Le, Sahil Sakhuja, Arash Sarmadi,
- Abstract要約: マルチエケロン在庫最適化(MEIO)は、効果的なサプライチェーン管理において重要であるが、その固有の複雑さは重大な課題を引き起こす可能性がある。
近年の研究では、深層強化学習(DRL)が従来の強化学習の代替として有望であることがわかった。
本論文は複雑化に伴うMEIO問題に対するDRLの適用性について考察する。
- 参考スコア(独自算出の注目度): 0.6990493129893112
- License:
- Abstract: Multi-echelon inventory optimization (MEIO) is critical for effective supply chain management, but its inherent complexity can pose significant challenges. Heuristics are commonly used to address this complexity, yet they often face limitations in scope and scalability. Recent research has found deep reinforcement learning (DRL) to be a promising alternative to traditional heuristics, offering greater versatility by utilizing dynamic decision-making capabilities. However, since DRL is known to struggle with the curse of dimensionality, its relevance to complex real-life supply chain scenarios is still to be determined. This thesis investigates DRL's applicability to MEIO problems of increasing complexity. A state-of-the-art DRL model was replicated, enhanced, and tested across 13 supply chain scenarios, combining diverse network structures and parameters. To address DRL's challenges with dimensionality, additional models leveraging graph neural networks (GNNs) and multi-agent reinforcement learning (MARL) were developed, culminating in the novel iterative multi-agent reinforcement learning (IMARL) approach. IMARL demonstrated superior scalability, effectiveness, and reliability in optimizing inventory policies, consistently outperforming benchmarks. These findings confirm the potential of DRL, particularly IMARL, to address real-world supply chain challenges and call for additional research to further expand its applicability.
- Abstract(参考訳): マルチエケロン在庫最適化(MEIO)は、効果的なサプライチェーン管理において重要であるが、その固有の複雑さは重大な課題を引き起こす可能性がある。
ヒューリスティックスは、この複雑さに対処するために一般的に使用されるが、スコープとスケーラビリティの制限に直面していることが多い。
近年の研究では、深層強化学習(DRL)が従来のヒューリスティックスに代わる有望な選択肢であり、動的意思決定能力を活用することで、より多目的性を提供する。
しかし、DRLは次元の呪いに苦しむことが知られているため、複雑な実生活サプライチェーンのシナリオとの関連性はまだ決定されていない。
本論文は複雑化に伴うMEIO問題に対するDRLの適用性について考察する。
最先端のDRLモデルが13のサプライチェーンシナリオを再現し、拡張し、テストし、多様なネットワーク構造とパラメータを組み合わせた。
次元性に関するDRLの課題に対処するため、グラフニューラルネットワーク(GNN)とマルチエージェント強化学習(MARL)を利用したモデルが開発され、新しい反復型マルチエージェント強化学習(IMARL)アプローチが完成した。
IMARLは、在庫ポリシーの最適化において優れたスケーラビリティ、有効性、信頼性を示し、ベンチマークを一貫して上回った。
これらの結果は、DRL、特にIMARLが現実世界のサプライチェーンの課題に対処し、適用性を高めるためにさらなる研究を求める可能性を裏付けている。
関連論文リスト
- Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - MAIDCRL: Semi-centralized Multi-Agent Influence Dense-CNN Reinforcement
Learning [0.7366405857677227]
エージェント・インフルエンス・マップ(AIM)によって強化された半集中型Dense Reinforcement Learningアルゴリズムを用いて,StarCraft Multi-Agent Challenge (SMAC) シナリオにおける効果的なマルチエージェント制御を学習する。
その結果,CNN対応MAIDCRLは学習性能を大幅に向上し,既存のMAIDRLと比較して学習速度が向上した。
論文 参考訳(メタデータ) (2024-02-12T18:53:20Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - A Deep Q-Network Based on Radial Basis Functions for Multi-Echelon
Inventory Management [6.149034764951798]
本稿では,複雑なネットワークトポロジによる複数エケロン在庫管理問題に対処する。
Q-ネットワークが放射基底関数に基づくDRLモデルを開発する。
ベースストックポリシーが最適であるシリアルシステムにおいて、マルチエケロンシステムにおけるより良いポリシーと競争性能を生成する。
論文 参考訳(メタデータ) (2024-01-29T04:11:56Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Detecting and adapting to crisis pattern with context based Deep
Reinforcement Learning [6.224519494738852]
本稿では、2つのサブネットワークで構成された革新的なDRLフレームワークを提案する。
テストセットの結果、このアプローチはMarkowitzのような従来のポートフォリオ最適化手法を大幅に上回っており、現在のCovidのような危機を検出し予測することができる。
論文 参考訳(メタデータ) (2020-09-07T12:11:08Z) - Simultaneously Evolving Deep Reinforcement Learning Models using
Multifactorial Optimization [18.703421169342796]
この研究は、関連する強化学習タスクの解決に向けて、複数のDQLモデルを同時に進化させることのできるフレームワークを提案する。
フレームワークの性能を評価するために、徹底的な実験を行い、議論する。
論文 参考訳(メタデータ) (2020-02-25T10:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。