論文の概要: Flexible Manufacturing Systems Intralogistics: Dynamic Optimization of AGVs and Tool Sharing Using Coloured-Timed Petri Nets and Actor-Critic RL with Actions Masking
- arxiv url: http://arxiv.org/abs/2601.04887v1
- Date: Thu, 08 Jan 2026 12:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.200923
- Title: Flexible Manufacturing Systems Intralogistics: Dynamic Optimization of AGVs and Tool Sharing Using Coloured-Timed Petri Nets and Actor-Critic RL with Actions Masking
- Title(参考訳): フレキシブル・マニュファクチャリング・システム(フレキシブル・マニュファクチャリング・システム)
- Authors: Sofiene Lassoued, Laxmikant Shrikant Bahetic, Nathalie Weiß-Borkowskib, Stefan Lierc, Andreas Schwunga,
- Abstract要約: 本稿では,自動誘導車両(AGV)とツール共有システムの同時統合により,新たな複雑さを取り入れた従来型のジョブショップスケジューリング問題を推し進める。
色付き時間ペトリネット(CTPN)とアクター批判モデルに基づく強化学習(MBRL)を組み合わせた新しいアプローチを提案する。
提案手法は,小規模の公開ベンチマークと,Tallardベンチマークにインスパイアされた大規模ベンチマークを用いて評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flexible Manufacturing Systems (FMS) are pivotal in optimizing production processes in today's rapidly evolving manufacturing landscape. This paper advances the traditional job shop scheduling problem by incorporating additional complexities through the simultaneous integration of automated guided vehicles (AGVs) and tool-sharing systems. We propose a novel approach that combines Colored-Timed Petri Nets (CTPNs) with actor-critic model-based reinforcement learning (MBRL), effectively addressing the multifaceted challenges associated with FMS. CTPNs provide a formal modeling structure and dynamic action masking, significantly reducing the action search space, while MBRL ensures adaptability to changing environments through the learned policy. Leveraging the advantages of MBRL, we incorporate a lookahead strategy for optimal positioning of AGVs, improving operational efficiency. Our approach was evaluated on small-sized public benchmarks and a newly developed large-scale benchmark inspired by the Taillard benchmark. The results show that our approach matches traditional methods on smaller instances and outperforms them on larger ones in terms of makespan while achieving a tenfold reduction in computation time. To ensure reproducibility, we propose a gym-compatible environment and an instance generator. Additionally, an ablation study evaluates the contribution of each framework component to its overall performance.
- Abstract(参考訳): フレキシブル・マニュファクチャリング・システムズ(FMS)は、現在急速に発展している製造環境における生産プロセスの最適化において重要な役割を担っている。
本稿では,自動誘導車両(AGV)とツール共有システムの同時統合により,新たな複雑さを取り入れた従来型のジョブショップスケジューリング問題を推し進める。
本研究では,色付き時間ペトリネット(CTPN)とアクタークリティカルモデルベース強化学習(MBRL)を併用して,FMSに関連する多面的課題を効果的に解決する手法を提案する。
CTPNは、形式的なモデリング構造と動的なアクションマスキングを提供し、アクション検索スペースを著しく削減する一方、MBRLは学習ポリシーを通じて環境の変化への適応性を保証する。
MBRLの利点を生かして、AGVの最適位置決めのためのルックアヘッド戦略を導入し、運用効率を向上する。
提案手法は,小規模の公開ベンチマークと,Tallardベンチマークにインスパイアされた大規模ベンチマークを用いて評価した。
その結果,本手法はより小さなインスタンス上で従来の手法と一致し,処理時間の10倍の削減を実現しつつ,より大規模な手法よりも優れていることがわかった。
再現性を確保するため,体育環境とインスタンス生成環境を提案する。
さらに、アブレーション調査では、各フレームワークコンポーネントの全体的なパフォーマンスに対する貢献を評価する。
関連論文リスト
- DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - CogPlanner: Unveiling the Potential of Agentic Multimodal Retrieval Augmented Generation with Planning [9.027579000292441]
Multimodal Retrieval Augmented Generation(MRAG)システムは、MLLM(Multimodal Large Language Model)の生成能力を高めることを約束している。
既存のMRAGフレームワークは主に、情報取得とクエリ再構成の現実的な課題に対処できない厳格で単一ステップの検索戦略に準拠している。
本稿では,計算オーバーヘッドを最小限に抑えつつ,効果的な情報探索と統合を目的としたMRAG計画(Multimodal Retrieval Augmented Generation Planning)の課題を紹介する。
論文 参考訳(メタデータ) (2025-01-26T10:16:42Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Learning-enabled Flexible Job-shop Scheduling for Scalable Smart
Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。
近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。
Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文 参考訳(メタデータ) (2024-02-14T06:49:23Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。