論文の概要: Balancing Specialization and Centralization: A Multi-Agent Reinforcement Learning Benchmark for Sequential Industrial Control
- arxiv url: http://arxiv.org/abs/2510.20408v1
- Date: Thu, 23 Oct 2025 10:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.745884
- Title: Balancing Specialization and Centralization: A Multi-Agent Reinforcement Learning Benchmark for Sequential Industrial Control
- Title(参考訳): 高度化と集中化のバランス: 逐次産業統制のためのマルチエージェント強化学習ベンチマーク
- Authors: Tom Maus, Asma Atamna, Tobias Glasmachers,
- Abstract要約: 本研究では、SortingEnvとContainerGymという2つの既存のベンチマークのタスクを組み合わせた、業界にインスパイアされたベンチマーク環境を導入する。
特殊エージェントを備えたモジュラーアーキテクチャとフルシステムを管理するモノリシックエージェントの2つのコントロール戦略を評価し,アクションマスキングの影響を解析した。
- 参考スコア(独自算出の注目度): 0.2676349883103403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous control of multi-stage industrial processes requires both local specialization and global coordination. Reinforcement learning (RL) offers a promising approach, but its industrial adoption remains limited due to challenges such as reward design, modularity, and action space management. Many academic benchmarks differ markedly from industrial control problems, limiting their transferability to real-world applications. This study introduces an enhanced industry-inspired benchmark environment that combines tasks from two existing benchmarks, SortingEnv and ContainerGym, into a sequential recycling scenario with sorting and pressing operations. We evaluate two control strategies: a modular architecture with specialized agents and a monolithic agent governing the full system, while also analyzing the impact of action masking. Our experiments show that without action masking, agents struggle to learn effective policies, with the modular architecture performing better. When action masking is applied, both architectures improve substantially, and the performance gap narrows considerably. These results highlight the decisive role of action space constraints and suggest that the advantages of specialization diminish as action complexity is reduced. The proposed benchmark thus provides a valuable testbed for exploring practical and robust multi-agent RL solutions in industrial automation, while contributing to the ongoing debate on centralization versus specialization.
- Abstract(参考訳): 多段階産業プロセスの自律的な制御には、局所的な特殊化とグローバルな調整が必要である。
強化学習(Reinforcement Learning, RL)は、有望なアプローチであるが、その産業的採用は、報酬設計、モジュール性、行動空間管理といった課題によって制限されている。
多くの学術ベンチマークは、産業制御の問題とは大きく異なり、現実のアプリケーションへの転送可能性を制限する。
本研究では、SortingEnvとContainerGymという2つの既存のベンチマークのタスクを、ソートとプレス操作を伴うシーケンシャルなリサイクルシナリオに組み合わせた、業界にインスパイアされたベンチマーク環境を導入する。
特殊エージェントを備えたモジュラーアーキテクチャとフルシステムを管理するモノリシックエージェントの2つのコントロール戦略を評価し,アクションマスキングの影響を解析した。
我々の実験によると、アクションマスキングがなければ、エージェントは効果的なポリシーを学ぶのに苦労し、モジュラーアーキテクチャはより良く機能する。
アクションマスキングを適用すると、両方のアーキテクチャが大幅に改善され、性能ギャップが大幅に狭まる。
これらの結果は, 行動空間制約の決定的な役割を強調し, 行動複雑性が減少するにつれて, 特殊化の優位性が低下することが示唆された。
提案したベンチマークは、産業自動化における実用的で堅牢なマルチエージェントRLソリューションを探求する上で貴重なテストベッドを提供すると同時に、集中化と専門化の議論にも貢献する。
関連論文リスト
- MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning [82.14973479594367]
複雑な推論タスクのための大規模言語モデル(LLM)は、直感的で意図的な認知プロセスを橋渡しする革新的なアプローチを必要とする。
本稿では,Multi-Agent System for Deep ReSearch (MARS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T15:42:55Z) - OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System [61.12400636463362]
OnePieceは、LLMスタイルのコンテキストエンジニアリングと推論を、検索モデルとランキングモデルの両方にシームレスに統合する統合フレームワークである。
OnePieceは、Shopeeの主要なパーソナライズされた検索シナリオにデプロイされ、さまざまな主要なビジネス指標で一貫したオンラインゲインを実現している。
論文 参考訳(メタデータ) (2025-09-22T17:59:07Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - Novel Multi-Agent Action Masked Deep Reinforcement Learning for General Industrial Assembly Lines Balancing Problems [1.8434042562191815]
本稿では,マルコフ決定過程 (MDP) として定式化された汎用産業組立ラインの数学的モデルを提案する。
提案モデルは,タスクとリソーススケジューリングを最適化するために,深層強化学習(DRL)エージェントを訓練するための仮想環境を構築するために使用される。
論文 参考訳(メタデータ) (2025-07-22T14:34:36Z) - Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - Control-Optimized Deep Reinforcement Learning for Artificially Intelligent Autonomous Systems [8.766411351797885]
深層強化学習(DRL)は、機械学習とAIにおいて、複雑な意思決定のための強力なツールとなっている。
従来の手法では、エージェントが選択したアクションと実際のシステム応答の間の不確実性や逸脱を見越して、完璧なアクション実行を仮定することが多い。
この作業は、アクション実行ミスマッチを明示的にモデル化し補償する、制御最適化DRLフレームワークを開発することで、AIを前進させる。
論文 参考訳(メタデータ) (2025-06-30T21:25:52Z) - Think Twice, Act Once: A Co-Evolution Framework of LLM and RL for Large-Scale Decision Making [9.34311343273189]
Agents Co-Evolution (ACE)は大規模言語モデル(LLM)と強化学習(RL)の相乗的フレームワークである
ACEは、LDMがRLのトレーニング中にポリシーアクターとバリュークリティカルの両方として機能するデュアルロール軌道改善機構を導入している。
動作空間が60Kを超える複数の電力グリッド操作実験を通じて、ACEは既存のRL法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-03T06:52:37Z) - ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。