論文の概要: Novel Multi-Agent Action Masked Deep Reinforcement Learning for General Industrial Assembly Lines Balancing Problems
- arxiv url: http://arxiv.org/abs/2507.16635v1
- Date: Tue, 22 Jul 2025 14:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.155038
- Title: Novel Multi-Agent Action Masked Deep Reinforcement Learning for General Industrial Assembly Lines Balancing Problems
- Title(参考訳): 一般産業組立ラインのバランス問題に対する多エージェント型深層強化学習
- Authors: Ali Mohamed Ali, Luca Tirel, Hashim A. Hashim,
- Abstract要約: 本稿では,マルコフ決定過程 (MDP) として定式化された汎用産業組立ラインの数学的モデルを提案する。
提案モデルは,タスクとリソーススケジューリングを最適化するために,深層強化学習(DRL)エージェントを訓練するための仮想環境を構築するために使用される。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient planning of activities is essential for modern industrial assembly lines to uphold manufacturing standards, prevent project constraint violations, and achieve cost-effective operations. While exact solutions to such challenges can be obtained through Integer Programming (IP), the dependence of the search space on input parameters often makes IP computationally infeasible for large-scale scenarios. Heuristic methods, such as Genetic Algorithms, can also be applied, but they frequently produce suboptimal solutions in extensive cases. This paper introduces a novel mathematical model of a generic industrial assembly line formulated as a Markov Decision Process (MDP), without imposing assumptions on the type of assembly line a notable distinction from most existing models. The proposed model is employed to create a virtual environment for training Deep Reinforcement Learning (DRL) agents to optimize task and resource scheduling. To enhance the efficiency of agent training, the paper proposes two innovative tools. The first is an action-masking technique, which ensures the agent selects only feasible actions, thereby reducing training time. The second is a multi-agent approach, where each workstation is managed by an individual agent, as a result, the state and action spaces were reduced. A centralized training framework with decentralized execution is adopted, offering a scalable learning architecture for optimizing industrial assembly lines. This framework allows the agents to learn offline and subsequently provide real-time solutions during operations by leveraging a neural network that maps the current factory state to the optimal action. The effectiveness of the proposed scheme is validated through numerical simulations, demonstrating significantly faster convergence to the optimal solution compared to a comparable model-based approach.
- Abstract(参考訳): 生産基準の維持、プロジェクト制約違反の防止、費用対効果の達成など、現代の産業組立ラインにとって効率的な活動計画が不可欠である。
このような課題に対する正確な解は整数計画法(IP)によって得られるが、入力パラメータに対する探索空間の依存は、大規模なシナリオでIPを計算不能にすることが多い。
遺伝的アルゴリズムのようなヒューリスティックな手法も適用できるが、広範囲な場合において、しばしば準最適解を生成する。
本稿では,マルコフ決定過程 (MDP) として定式化された一般産業用組立ラインの数学的モデルを提案する。
提案モデルは,タスクとリソーススケジューリングを最適化するために,深層強化学習(DRL)エージェントを訓練するための仮想環境を構築するために使用される。
エージェント訓練の効率を高めるために,2つの革新的なツールを提案する。
1つ目はアクションマスキング技術で、エージェントが実行可能なアクションのみを選択し、トレーニング時間を短縮する。
2つ目はマルチエージェントのアプローチで、各ワークステーションは個々のエージェントによって管理され、結果として状態とアクション空間は縮小された。
分散実行を備えた集中型トレーニングフレームワークが採用され、産業用アセンブリラインを最適化するためのスケーラブルな学習アーキテクチャを提供する。
このフレームワークは、エージェントがオフラインで学び、その後、現在の工場の状態と最適なアクションをマッピングするニューラルネットワークを活用することによって、運用中のリアルタイムソリューションを提供することを可能にする。
提案手法の有効性を数値シミュレーションにより検証し, 最適解への収束を比較検討した。
関連論文リスト
- LLM-guided Chemical Process Optimization with a Multi-Agent Approach [5.417632175667162]
化学プロセスの最適化は生産効率と経済性能の最大化に不可欠である。
勾配に基づくアルゴリズム、進化的アルゴリズム、パラメータグリッド探索を含む従来の手法は、操作上の制約が定義されていない場合や利用できない場合、実用的ではない。
本稿では,大規模言語モデル(LLM)エージェントのマルチエージェントフレームワークについて,最小限のプロセス記述から自律的に動作制約を推測する。
論文 参考訳(メタデータ) (2025-06-26T01:03:44Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Improvement of Optimization using Learning Based Models in Mixed Integer Linear Programming Tasks [2.1111289252277197]
混合線形プログラム(MILP)は、建設、製造、物流といった重要な産業において計画とスケジューリングの問題を解決するための重要なツールである。
本稿では,グラフニューラルネットワーク(GNN)の学習に行動クローニング(BC)と強化学習(RL)を活用する学習ベースフレームワークを提案する。
本手法は,ソリューションの品質と実現可能性を維持しつつ,従来の手法と比較して最適化時間と分散を低減させる。
論文 参考訳(メタデータ) (2025-05-17T01:31:53Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Efficient Domain Adaptation of Multimodal Embeddings using Constrastive Learning [0.08192907805418582]
現在のアプローチでは、タスク固有の適応なしに事前訓練されたモデルを使用する際にサブパー結果を得るか、あるいは微調整のためにかなりの計算資源を必要とする。
本稿では,高コストな微調整処理を必要とせず,基礎的なマルチモーダルな埋め込みを下流タスクに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T06:30:12Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A Memetic Algorithm with Reinforcement Learning for Sociotechnical
Production Scheduling [0.0]
本稿では、フレキシブルジョブショップスケジューリング問題(DRC-FJSSP)に深層強化学習(DRL)を適用したメメティックアルゴリズムを提案する。
産業における研究プロジェクトから、フレキシブルマシン、フレキシブルなヒューマンワーカー、作業能力、セットアップと処理操作、材料到着時間、材料製造の請求書の並列タスク、シーケンス依存のセットアップ時間、人間と機械のコラボレーションにおける(一部)自動化タスクを検討する必要性を認識します。
論文 参考訳(メタデータ) (2022-12-21T11:24:32Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。