論文の概要: Dynamic resource matching in manufacturing using deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2603.27066v1
- Date: Sat, 28 Mar 2026 00:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.76559
- Title: Dynamic resource matching in manufacturing using deep reinforcement learning
- Title(参考訳): 深部強化学習を用いた製造における動的資源マッチング
- Authors: Saunak Kumar Panda, Yisha Xiang, Ruiqi Liu,
- Abstract要約: 我々は,多周期多人数生産資源マッチング問題を逐次決定プロセスとして定式化する。
モデルフリーの深層強化学習手法を用いて最適なマッチングポリシーを求める。
従来のQ-ラーニングアルゴリズムには,事前ポリシーに基づくドメイン知識に基づくペナルティと,需要供給制約に適合する不実現可能性ペナルティという2つのペナルティを導入する。
- 参考スコア(独自算出の注目度): 7.675215772821087
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Matching plays an important role in the logical allocation of resources across a wide range of industries. The benefits of matching have been increasingly recognized in manufacturing industries. In particular, capacity sharing has received much attention recently. In this paper, we consider the problem of dynamically matching demand-capacity types of manufacturing resources. We formulate the multi-period, many-to-many manufacturing resource-matching problem as a sequential decision process. The formulated manufacturing resource-matching problem involves large state and action spaces, and it is not practical to accurately model the joint distribution of various types of demands. To address the curse of dimensionality and the difficulty of explicitly modeling the transition dynamics, we use a model-free deep reinforcement learning approach to find optimal matching policies. Moreover, to tackle the issue of infeasible actions and slow convergence due to initial biased estimates caused by the maximum operator in Q-learning, we introduce two penalties to the traditional Q-learning algorithm: a domain knowledge-based penalty based on a prior policy and an infeasibility penalty that conforms to the demand-supply constraints. We establish theoretical results on the convergence of our domain knowledge-informed Q-learning providing performance guarantee for small-size problems. For large-size problems, we further inject our modified approach into the deep deterministic policy gradient (DDPG) algorithm, which we refer to as domain knowledge-informed DDPG (DKDDPG). In our computational study, including small- and large-scale experiments, DKDDPG consistently outperformed traditional DDPG and other RL algorithms, yielding higher rewards and demonstrating greater efficiency in time and episodes.
- Abstract(参考訳): マッチングは、幅広い産業におけるリソースの論理的割り当てにおいて重要な役割を果たしている。
マッチングの利点は製造業でますます認識されている。
特に、最近はキャパシティ共有が注目されている。
本稿では,生産資源の需要-能力タイプを動的にマッチングする問題について考察する。
我々は,多周期多人数生産資源マッチング問題を逐次決定プロセスとして定式化する。
定式化された製造資源マッチング問題には, 大規模状態と行動空間が含まれており, 多様な需要の連関分布を正確にモデル化することは現実的ではない。
遷移力学を明示的にモデル化することの難しさと次元の呪いに対処するため,モデルのない深層強化学習手法を用いて最適なマッチングポリシーを求める。
さらに、Qラーニングにおける最大演算子による初期偏り推定による実現不可能な行動や収束の遅れに対処するために、従来のQラーニングアルゴリズムに2つのペナルティを導入する: 事前のポリシーに基づくドメイン知識に基づくペナルティと、需要供給制約に適合する不実現ペナルティである。
ドメイン知識に基づくQ-ラーニングの収束に関する理論的結果を確立し,小規模問題に対する性能保証を行う。
大規模問題に対しては,DKDDPG (Domain Knowledge-informed DDPG) と呼ばれる,Deep Deterministic Policy gradient (DDPG) アルゴリズムに改良されたアプローチを注入する。
DKDDPGは,小型・大規模実験を含む計算実験において,従来のDDPGと他のRLアルゴリズムを一貫して上回り,報奨が得られ,時間・エピソードの効率が向上した。
関連論文リスト
- Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - Solving The Dynamic Volatility Fitting Problem: A Deep Reinforcement Learning Approach [0.0]
我々は,Deep Deterministic Policy Gradient (DDPG) とSoft Actor Critic (SAC) の変種が,少なくとも標準適合アルゴリズムと同程度の精度で実現できることを示す。
複雑な目的関数を扱うのに強化学習フレームワークが適切である理由を解説する。
論文 参考訳(メタデータ) (2024-10-15T17:10:54Z) - Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply
Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。
本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文 参考訳(メタデータ) (2022-04-20T16:33:01Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Contingency-Aware Influence Maximization: A Reinforcement Learning
Approach [52.109536198330126]
インフルエンス(IM)問題は、インフルエンスの普及を最大化する、ソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。
本研究では、招待されたノードがシードであるかどうかが不確実なIM問題(contingency-aware IM)に焦点をあてる。
最初の成功にもかかわらず、より多くのコミュニティへのソリューションの推進における大きな実践上の障害は、欲張りのアルゴリズムの巨大な実行時である。
論文 参考訳(メタデータ) (2021-06-13T16:42:22Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Detecting and adapting to crisis pattern with context based Deep
Reinforcement Learning [6.224519494738852]
本稿では、2つのサブネットワークで構成された革新的なDRLフレームワークを提案する。
テストセットの結果、このアプローチはMarkowitzのような従来のポートフォリオ最適化手法を大幅に上回っており、現在のCovidのような危機を検出し予測することができる。
論文 参考訳(メタデータ) (2020-09-07T12:11:08Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。