論文の概要: MEAL: A Benchmark for Continual Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.14990v1
- Date: Tue, 17 Jun 2025 21:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.491493
- Title: MEAL: A Benchmark for Continual Multi-Agent Reinforcement Learning
- Title(参考訳): MEAL: 継続的マルチエージェント強化学習のためのベンチマーク
- Authors: Tristan Tomilin, Luka van den Boogaard, Samuel Garcin, Bram Grooten, Meng Fang, Mykola Pechenizkiy,
- Abstract要約: 連続型マルチエージェント強化学習(CMARL)に適した最初のベンチマークであるMEALを紹介する。
既存のCLベンチマークはCPU上で環境を実行するため、計算上のボトルネックが発生し、タスクシーケンスの長さが制限される。
MEALは、JAXをGPUアクセラレーションに利用し、標準デスクトップPC上の100タスクのシーケンスを数時間で連続的に学習することを可能にする。
- 参考スコア(独自算出の注目度): 27.66874423453976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks play a crucial role in the development and analysis of reinforcement learning (RL) algorithms, with environment availability strongly impacting research. One particularly underexplored intersection is continual learning (CL) in cooperative multi-agent settings. To remedy this, we introduce MEAL (Multi-agent Environments for Adaptive Learning), the first benchmark tailored for continual multi-agent reinforcement learning (CMARL). Existing CL benchmarks run environments on the CPU, leading to computational bottlenecks and limiting the length of task sequences. MEAL leverages JAX for GPU acceleration, enabling continual learning across sequences of 100 tasks on a standard desktop PC in a few hours. We show that naively combining popular CL and MARL methods yields strong performance on simple environments, but fails to scale to more complex settings requiring sustained coordination and adaptation. Our ablation study identifies architectural and algorithmic features critical for CMARL on MEAL.
- Abstract(参考訳): ベンチマークは強化学習(RL)アルゴリズムの開発と分析において重要な役割を果たす。
特に探索されていない交差点は、協調的なマルチエージェント設定における連続学習(CL)である。
そこで本稿では,Multi-agent Environments for Adaptive Learning (CMARL) のための最初のベンチマークであるMEAL(Multi-agent Environments for Adaptive Learning)を紹介する。
既存のCLベンチマークはCPU上で環境を実行するため、計算上のボトルネックが発生し、タスクシーケンスの長さが制限される。
MEALは、JAXをGPUアクセラレーションに利用し、標準デスクトップPC上の100タスクのシーケンスを数時間で連続的に学習することを可能にする。
一般的なCL法とMARL法を組み合わせることで,単純な環境において高い性能が得られるが,持続的な調整と適応を必要とする複雑な環境にスケールできないことを示す。
本稿では,MEAL上でCMARLに不可欠なアーキテクチャ的特徴とアルゴリズム的特徴について検討する。
関連論文リスト
- MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Density Distribution-based Learning Framework for Addressing Online
Continual Learning Challenges [4.715630709185073]
オンライン連続学習のための密度分布に基づく学習フレームワークを提案する。
我々のフレームワークは、より優れた平均精度と時間空間効率を実現する。
提案手法は, CL のアプローチにおいて, 有意な差で優れる。
論文 参考訳(メタデータ) (2023-11-22T09:21:28Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - Characterizing Speed Performance of Multi-Agent Reinforcement Learning [5.313762764969945]
MARL(Multi-Agent Reinforcement Learning)は、大規模AIシステムや、スマートグリッドや監視などビッグデータアプリケーションにおいて、大きな成功を収めています。
MARLアルゴリズムの既存の進歩は、エージェント間協調のための様々なメカニズムを導入して得られる報酬の改善に焦点を当てている。
我々は、MARL実装において、速度性能(すなわち、レイテンシ境界スループット)を重要な指標として分析する。
論文 参考訳(メタデータ) (2023-09-13T17:26:36Z) - TeachMyAgent: a Benchmark for Automatic Curriculum Learning in Deep RL [23.719833581321033]
複数のタスクに一般化できる自律エージェントのトレーニングは、Deep Reinforcement Learning (DRL)研究の重要なターゲットです。
DRLアルゴリズムの改善と並行して、ACL(Automatic Curriculum Learning)は、進化する能力にタスク選択を適用することで、教師アルゴリズムがDRLエージェントをより効率的に訓練する方法を研究する。
DRLエージェントを比較するために複数の標準ベンチマークが存在するが、現在ACLアルゴリズムにはそのようなものは存在しない。
論文 参考訳(メタデータ) (2021-03-17T17:59:22Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。