論文の概要: Multi-Agent Reinforcement Learning and Real-Time Decision-Making in Robotic Soccer for Virtual Environments
- arxiv url: http://arxiv.org/abs/2512.03166v1
- Date: Tue, 02 Dec 2025 19:11:44 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:27.102822
- Title: Multi-Agent Reinforcement Learning and Real-Time Decision-Making in Robotic Soccer for Virtual Environments
- Title(参考訳): 仮想環境におけるロボットサッカーにおけるマルチエージェント強化学習とリアルタイム意思決定
- Authors: Aya Taourirte, Md Sohag Mia,
- Abstract要約: 本稿では,これらの課題に対処するMARL(Multi-Agent Reinforcement Learning)フレームワークを提案する。
スケーラビリティを確保するため、平均場理論をHRLフレームワークに統合する。
我々の平均場アクター批判法は性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The deployment of multi-agent systems in dynamic, adversarial environments like robotic soccer necessitates real-time decision-making, sophisticated cooperation, and scalable algorithms to avoid the curse of dimensionality. While Reinforcement Learning (RL) offers a promising framework, existing methods often struggle with the multi-granularity of tasks (long-term strategy vs. instant actions) and the complexity of large-scale agent interactions. This paper presents a unified Multi-Agent Reinforcement Learning (MARL) framework that addresses these challenges. First, we establish a baseline using Proximal Policy Optimization (PPO) within a client-server architecture for real-time action scheduling, with PPO demonstrating superior performance (4.32 avg. goals, 82.9% ball control). Second, we introduce a Hierarchical RL (HRL) structure based on the options framework to decompose the problem into a high-level trajectory planning layer (modeled as a Semi-Markov Decision Process) and a low-level action execution layer, improving global strategy (avg. goals increased to 5.26). Finally, to ensure scalability, we integrate mean-field theory into the HRL framework, simplifying many-agent interactions into a single agent vs. the population average. Our mean-field actor-critic method achieves a significant performance boost (5.93 avg. goals, 89.1% ball control, 92.3% passing accuracy) and enhanced training stability. Extensive simulations of 4v4 matches in the Webots environment validate our approach, demonstrating its potential for robust, scalable, and cooperative behavior in complex multi-agent domains.
- Abstract(参考訳): ロボットサッカーのような動的で敵対的な環境におけるマルチエージェントシステムの展開は、次元の呪いを避けるために、リアルタイムな意思決定、高度な協調、スケーラブルなアルゴリズムを必要とする。
Reinforcement Learning(RL)は有望なフレームワークを提供するが、既存のメソッドはタスクの複数粒度(長期的な戦略対インスタントアクション)と大規模エージェントインタラクションの複雑さに悩まされることが多い。
本稿では,これらの課題に対処するMARL(Multi-Agent Reinforcement Learning)フレームワークを提案する。
まず,PPO が優れた性能(4.32 進路,82.9% 球制御)を示すことから,PPO をクライアントサーバアーキテクチャ内でリアルタイム動作スケジューリングに利用したベースラインを確立する。
第2に,高次軌道計画層(セミマルコフ決定プロセスとしてモデル化)と低次行動実行層に分解するオプションフレームワークに基づく階層的RL(HRL)構造を導入し,グローバル戦略の改善(目標の5.26倍)を行う。
最後に、スケーラビリティを確保するため、平均場理論をHRLフレームワークに統合し、単一エージェントと人口平均との多エージェント相互作用を単純化する。
平均場アクター批判法は,5.93ゴール,89.1%ボールコントロール,92.3%パス精度)とトレーニング安定性の向上を実現した。
Webots環境における4v4マッチの大規模なシミュレーションにより、複雑なマルチエージェントドメインにおける堅牢でスケーラブルで協調的な動作の可能性を示す。
関連論文リスト
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need [35.88121318813734]
大規模言語モデルに基づくマルチエージェントシステムは、社会シミュレーションや複雑なタスク解決領域において大きな可能性を示している。
AgentGroupChat-V2は、3つのコアイノベーションを通じてこれらの課題に対処する新しいフレームワークです。
AgentGroupChat-V2のさまざまなドメインでの優れたパフォーマンスを示す実験。
論文 参考訳(メタデータ) (2025-06-18T13:24:04Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - MAGNNET: Multi-Agent Graph Neural Network-based Efficient Task Allocation for Autonomous Vehicles with Deep Reinforcement Learning [2.5022287664959446]
本稿では,グラフニューラルネットワーク(GNN)を一元的トレーニングと分散実行(CTDE)パラダイムに統合する新しいフレームワークを提案する。
本手法により,無人航空機 (UAV) と無人地上車両 (UGV) は, 中央調整を必要とせず, 効率よくタスクを割り当てることができる。
論文 参考訳(メタデータ) (2025-02-04T13:29:56Z) - PARCO: Parallel AutoRegressive Models for Multi-Agent Combinatorial Optimization [25.209951743372855]
PARCOはマルチエージェントタスクのための高品質なソリューションを効率的に構築するために設計された強化学習フレームワークである。
マルチエージェント車両のルーティングとスケジューリングにおけるPARCOの評価を行い,提案手法は最先端の学習方法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-05T17:49:18Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。