Fugu-MT 論文翻訳(概要): Mix-ME: Quality-Diversity for Multi-Agent Learning

論文の概要: Mix-ME: Quality-Diversity for Multi-Agent Learning

arxiv url: http://arxiv.org/abs/2311.01829v1
Date: Fri, 3 Nov 2023 10:36:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 14:38:04.422823
Title: Mix-ME: Quality-Diversity for Multi-Agent Learning
Title（参考訳）: Mix-ME:マルチエージェント学習のための品質多様性
Authors: Gar{\dh}ar Ingvarsson, Mikayel Samvelyan, Bryan Lim, Manon Flageat, Antoine Cully, Tim Rockt\"aschel
Abstract要約: 人気のMAP-Elitesアルゴリズムのマルチエージェント版であるMix-MEを紹介する。提案手法は,可観測性のある連続制御タスクの多種多様について評価する。
参考スコア（独自算出の注目度）: 11.130914000431353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In many real-world systems, such as adaptive robotics, achieving a single, optimised solution may be insufficient. Instead, a diverse set of high-performing solutions is often required to adapt to varying contexts and requirements. This is the realm of Quality-Diversity (QD), which aims to discover a collection of high-performing solutions, each with their own unique characteristics. QD methods have recently seen success in many domains, including robotics, where they have been used to discover damage-adaptive locomotion controllers. However, most existing work has focused on single-agent settings, despite many tasks of interest being multi-agent. To this end, we introduce Mix-ME, a novel multi-agent variant of the popular MAP-Elites algorithm that forms new solutions using a crossover-like operator by mixing together agents from different teams. We evaluate the proposed methods on a variety of partially observable continuous control tasks. Our evaluation shows that these multi-agent variants obtained by Mix-ME not only compete with single-agent baselines but also often outperform them in multi-agent settings under partial observability.
Abstract（参考訳）: 適応ロボットのような現実世界のシステムでは、単一の最適化されたソリューションを達成することは不十分である。代わりに、さまざまなコンテキストや要求に適応するために、多種多様なハイパフォーマンスなソリューションセットがしばしば必要となる。これはQD(Quality-Diversity)の領域であり、それぞれ独自の特徴を持つハイパフォーマンスなソリューションの集合を見つけることを目的としている。 QD法は最近、ロボット工学を含む多くの領域で成功し、損傷適応型移動制御器の発見に使われている。しかし、既存の作業の多くはマルチエージェントであるにもかかわらず、シングルエージェントの設定に重点を置いている。そこで本研究では,異なるチームのエージェントを混在させて,クロスオーバーのような演算子を用いて新しい解を生成するMAP-Elitesアルゴリズムのマルチエージェント版であるMix-MEを紹介する。提案手法は,観測可能な連続制御タスクの多種多様について評価する。評価の結果,Mix-MEが取得したマルチエージェント変種は,単一エージェントベースラインと競合するだけでなく,部分観測可能条件下でのマルチエージェント設定でも優れていた。

関連論文リスト

MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning [68.91090643731987]
深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
論文参考訳（メタデータ） (2026-02-28T16:25:22Z)
MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2) 本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文参考訳（メタデータ） (2026-02-08T07:28:44Z)
Multi-Agent Inverse Q-Learning from Demonstrations [3.4136908117644698]
Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL)は、マルチエージェントIRLのための新しいサンプル効率フレームワークである。 MAMQLは,従来のマルチエージェント手法よりも平均報酬率,サンプル効率,報酬回復率を2～5倍に向上させることを示した。
論文参考訳（メタデータ） (2025-03-06T18:22:29Z)
LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。 LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。 LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文参考訳（メタデータ） (2024-12-12T12:47:09Z)
Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文参考訳（メタデータ） (2024-10-03T14:25:02Z)
Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-12T21:38:40Z)
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文参考訳（メタデータ） (2024-07-20T16:37:21Z)
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは進化的アルゴリズムによって専門家エージェントをマルチエージェントシステムに自動的に拡張する汎用的な手法である。 EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-06-20T11:49:23Z)
Heterogeneous Embodied Multi-Agent Collaboration [21.364827833498254]
不均一なマルチエージェントタスクは現実世界のシナリオでは一般的である。本稿では,複数の異種エージェントが協調して異種物体を検出し,適切な位置に配置する異種マルチエージェント・タイピング・アップタスクを提案する。本稿では, 乱れ検出に基づく階層的決定モデル, 合理的な受容器予測, およびハンドシェイクに基づくグループ通信機構を提案する。
論文参考訳（メタデータ） (2023-07-26T04:33:05Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
On the Complexity of Multi-Agent Decision Making: From Learning in Games to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文参考訳（メタデータ） (2023-05-01T06:46:22Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
Non-cooperative Multi-agent Systems with Exploring Agents [10.736626320566707]
マルコフゲームを用いたマルチエージェント動作の規範モデルを開発した。エージェントが探索するが、最適戦略に近い」モデルに焦点を当てる。
論文参考訳（メタデータ） (2020-05-25T19:34:29Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。