論文の概要: When Is Diversity Rewarded in Cooperative Multi-Agent Learning?
- arxiv url: http://arxiv.org/abs/2506.09434v1
- Date: Wed, 11 Jun 2025 06:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.589111
- Title: When Is Diversity Rewarded in Cooperative Multi-Agent Learning?
- Title(参考訳): 協調型マルチエージェント学習における多様性はいつ逆戻りするのか?
- Authors: Michael Amir, Matteo Bettini, Amanda Prorok,
- Abstract要約: 計算パラダイムとしてマルチエージェント強化学習(MARL)を用いる。
我々は,不特定なMARL環境のパラメータ空間を最適化する勾配に基づくアルゴリズムであるヘテロジニアス環境設計(HED)を紹介する。
- 参考スコア(独自算出の注目度): 7.380976669029464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of teams in robotics, nature, and society often depends on the division of labor among diverse specialists; however, a principled explanation for when such diversity surpasses a homogeneous team is still missing. Focusing on multi-agent task allocation problems, our goal is to study this question from the perspective of reward design: what kinds of objectives are best suited for heterogeneous teams? We first consider an instantaneous, non-spatial setting where the global reward is built by two generalized aggregation operators: an inner operator that maps the $N$ agents' effort allocations on individual tasks to a task score, and an outer operator that merges the $M$ task scores into the global team reward. We prove that the curvature of these operators determines whether heterogeneity can increase reward, and that for broad reward families this collapses to a simple convexity test. Next, we ask what incentivizes heterogeneity to emerge when embodied, time-extended agents must learn an effort allocation policy. To study heterogeneity in such settings, we use multi-agent reinforcement learning (MARL) as our computational paradigm, and introduce Heterogeneous Environment Design (HED), a gradient-based algorithm that optimizes the parameter space of underspecified MARL environments to find scenarios where heterogeneity is advantageous. Experiments in matrix games and an embodied Multi-Goal-Capture environment show that, despite the difference in settings, HED rediscovers the reward regimes predicted by our theory to maximize the advantage of heterogeneity, both validating HED and connecting our theoretical insights to reward design in MARL. Together, these results help us understand when behavioral diversity delivers a measurable benefit.
- Abstract(参考訳): ロボティクス、自然、社会におけるチームの成功は、多種多様な専門家の間での労働の分担に依存することが多いが、そのような多様性が同質なチームを超えたときの原則的な説明はいまだに欠けている。
マルチエージェントタスク割り当ての問題に焦点をあてて、私たちのゴールは報酬設計の観点からこの質問を研究することです。
まず、各タスクに対するN$エージェントの作業割当をタスクスコアにマッピングする内部演算子と、M$タスクスコアをグローバルチーム報酬にマージする外部演算子である。
これらの作用素の曲率によって、不均一性が報酬を増大させるかどうかが決定され、広義の報酬族に対して、これは単純な凸性テストに崩壊する。
次に、具体化された時間拡張エージェントが作業割当ポリシーを学ばなければならないとき、不均一性にインセンティブを与えるものは何であるかを尋ねる。
このような環境での不均一性を研究するために,我々はマルチエージェント強化学習(MARL)を計算パラダイムとして用い,不特定なMARL環境のパラメータ空間を最適化し,不均一性が有利なシナリオを見つけるための勾配に基づくアルゴリズムであるヘテロジニアス環境設計(HED)を導入している。
行列ゲームと具体化マルチゴール・キャプチャ環境の実験では、設定の違いにもかかわらず、HEDは不均一性の利点を最大化するために、我々の理論によって予測される報酬体系を再検討し、HEDを検証し、理論的な洞察をMARLの報酬設計に結びつける。
これらの結果は、行動の多様性が測定可能な利益をもたらすときの理解に役立ちます。
関連論文リスト
- HyperMARL: Adaptive Hypernetworks for Multi-Agent RL [9.154125291830058]
HyperMARLは、動的エージェント固有のパラメータにハイパーネットを使用するPSアプローチである。
政策勾配のばらつきを低減し、共有政治適応を促進し、エージェント間の干渉を軽減する。
これらの結果から,HyperMARLは適応的MARLの汎用的アプローチとして確立された。
論文 参考訳(メタデータ) (2024-12-05T15:09:51Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Generalization in Cooperative Multi-Agent Systems [49.16349318581611]
協調型マルチエージェントシステムのための組合せ一般化(CG)の理論的基盤について検討する。
CGは、幅広いアプリケーションにまたがる実用性とデプロイ性を向上させることができるため、自律システムにとって非常に望ましい特徴である。
論文 参考訳(メタデータ) (2022-01-31T21:39:56Z) - Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。
また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-09-30T11:09:31Z) - Heterogeneous Explore-Exploit Strategies on Multi-Star Networks [0.0]
エージェントがマルチスターネットワーク上で通信する分散帯域幅問題について検討する。
モデル不規則ネットワークグラフとしてマルチスターを用いた異種探索探索戦略を提案する。
論文 参考訳(メタデータ) (2020-09-02T20:56:49Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。