論文の概要: A Negotiation-Based Multi-Agent Reinforcement Learning Approach for Dynamic Scheduling of Reconfigurable Manufacturing Systems
- arxiv url: http://arxiv.org/abs/2511.07707v1
- Date: Wed, 12 Nov 2025 01:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.441025
- Title: A Negotiation-Based Multi-Agent Reinforcement Learning Approach for Dynamic Scheduling of Reconfigurable Manufacturing Systems
- Title(参考訳): ネゴシエーションに基づくマルチエージェント強化学習による再構成可能な製造システムの動的スケジューリング
- Authors: Manonmani Sekar, Nasim Nezamoddini,
- Abstract要約: 本研究では,RMS設定のソフトプランニングにおける動的スケジューリングにマルチエージェント強化学習(MARL)を適用した。
提案フレームワークでは,集中訓練で訓練された深層Qnetwork(DQN)エージェントが,機械故障や再構成遅延などのイベントに適応しながら,最適なジョブ割り当てをリアルタイムで学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconfigurable manufacturing systems (RMS) are critical for future market adjustment given their rapid adaptation to fluctuations in consumer demands, the introduction of new technological advances, and disruptions in linked supply chain sections. The adjustable hard settings of such systems require a flexible soft planning mechanism that enables realtime production planning and scheduling amid the existing complexity and variability in their configuration settings. This study explores the application of multi agent reinforcement learning (MARL) for dynamic scheduling in soft planning of the RMS settings. In the proposed framework, deep Qnetwork (DQN) agents trained in centralized training learn optimal job machine assignments in real time while adapting to stochastic events such as machine breakdowns and reconfiguration delays. The model also incorporates a negotiation with an attention mechanism to enhance state representation and improve decision focus on critical system features. Key DQN enhancements including prioritized experience replay, nstep returns, double DQN and soft target update are used to stabilize and accelerate learning. Experiments conducted in a simulated RMS environment demonstrate that the proposed approach outperforms baseline heuristics in reducing makespan and tardiness while improving machine utilization. The reconfigurable manufacturing environment was extended to simulate realistic challenges, including machine failures and reconfiguration times. Experimental results show that while the enhanced DQN agent is effective in adapting to dynamic conditions, machine breakdowns increase variability in key performance metrics such as makespan, throughput, and total tardiness. The results confirm the advantages of applying the MARL mechanism for intelligent and adaptive scheduling in dynamic reconfigurable manufacturing environments.
- Abstract(参考訳): 消費者需要の急激な変動、新しい技術革新の導入、および接続されたサプライチェーンセクションの破壊などを踏まえ、再構成可能な製造システム(RMS)は将来の市場調整に不可欠である。
このようなシステムの調整可能なハード・セッティングには柔軟なソフト・プランニング・メカニズムが必要とされる。
本研究では,RMS設定のソフトプランニングにおける動的スケジューリングにマルチエージェント強化学習(MARL)を適用した。
提案フレームワークでは,集中訓練で訓練された深層Qnetwork(DQN)エージェントが,機械故障や再構成遅延といった確率的な事象に適応しながら,最適なジョブマシン割り当てをリアルタイムで学習する。
このモデルは、状態表現を強化し、重要なシステム機能に焦点を合わせるための、注意機構との交渉も取り入れている。
優先順位付けされたエクスペリエンスリプレイ、nstepリターン、ダブルDQN、ソフトターゲットアップデートなどの重要なDQN拡張は、学習の安定化と高速化に使用される。
シミュレーションRMS環境における実験により, 提案手法は, 機械利用の向上を図りつつ, メースパンとタドネスを低減し, ベースラインヒューリスティックスより優れることを示した。
再構成可能な製造環境は、機械故障や再構成時間を含む現実的な課題をシミュレートするために拡張された。
実験結果から, 強化DQNエージェントは動的条件に適応する上で有効であるが, マシンの故障は, メースパン, スループット, トータル・タドネスなどの主要な性能指標の変動性を増加させることがわかった。
その結果、動的再構成可能な製造環境において、MARL機構をインテリジェントで適応的なスケジューリングに適用する利点が確認できた。
関連論文リスト
- Optimizing Predictive Maintenance in Intelligent Manufacturing: An Integrated FNO-DAE-GNN-PPO MDP Framework [1.6921396880325779]
本稿では,高度なソフトコンピューティング技術を統合する新しいマルコフ決定プロセス(MDP)フレームワークを提案する。
このフレームワークは、最大13%のコスト削減で、複数のディープラーニングベースラインモデルよりも大幅に優れていることを示す。
このフレームワークは、データ駆動戦略を通じて、ダウンタイムと運用コストを効果的に削減する、相当な工業的可能性を秘めている。
論文 参考訳(メタデータ) (2025-11-05T13:21:29Z) - Flexible Locomotion Learning with Diffusion Model Predictive Control [46.432397190673505]
本稿では,学習した生成拡散モデルを計画に先立って近似力学として活用する拡散MPCを提案する。
我々の設計では、テスト時適応性が強く、プランナーは、再訓練することなく、新しい報酬仕様に調整できる。
我々はDiffusion-MPCを実世界で検証し、強い移動と柔軟な適応を示す。
論文 参考訳(メタデータ) (2025-10-05T14:51:13Z) - Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications [0.0]
本稿では,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
オンラインモードでは、強化学習は、新しいスケジューリングソリューションを継続的に探索し発見することで、重要な役割を果たす。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
論文 参考訳(メタデータ) (2025-09-24T19:46:22Z) - Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization [0.0]
本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。
我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。
包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
論文 参考訳(メタデータ) (2025-07-24T20:32:47Z) - Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - LADs: Leveraging LLMs for AI-Driven DevOps [3.240228178267042]
LADは、どの条件の下で最適化が機能するかを詳細に分析することで、構成最適化の原則化されたアプローチである。
Retrieval-Augmented Generation、Few-Shot Learning、Chain-of-Thought、Feedback-Based Prompt Chainingを活用することで、LADは正確な構成を生成し、デプロイメント障害から反復的に洗練されたシステム設定を学ぶ。
我々の発見は、パフォーマンス、コスト、スケーラビリティのトレードオフに関する重要な洞察を明らかにし、実践者が異なるデプロイメントシナリオに対して適切な戦略を決定するのに役立つ。
論文 参考訳(メタデータ) (2025-02-28T08:12:08Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。