論文の概要: An Improved Multi-Agent Algorithm for Cooperative and Competitive Environments by Identifying and Encouraging Cooperation among Agents
- arxiv url: http://arxiv.org/abs/2508.14131v1
- Date: Tue, 19 Aug 2025 09:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.214318
- Title: An Improved Multi-Agent Algorithm for Cooperative and Competitive Environments by Identifying and Encouraging Cooperation among Agents
- Title(参考訳): エージェント間の協調の同定と促進による協調的・競争的環境のための改良されたマルチエージェントアルゴリズム
- Authors: Junjie Qi, Siqi Mao, Tianyi Tan,
- Abstract要約: 本稿では,エージェント間の協調行動が特定されると,エージェントが得られる報酬を増やすための新しいパラメータを提案する。
その結果、新しいアルゴリズムは、より高いチーム報酬と個人の報酬の両方を達成するのに役立ちます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an improved algorithm by identifying and encouraging cooperative behavior in multi-agent environments. First, we analyze the shortcomings of existing algorithms in addressing multi-agent reinforcement learning problems. Then, based on the existing algorithm MADDPG, we introduce a new parameter to increase the reward that an agent can obtain when cooperative behavior among agents is identified. Finally, we compare our improved algorithm with MADDPG in environments from PettingZoo. The results show that the new algorithm helps agents achieve both higher team rewards and individual rewards.
- Abstract(参考訳): マルチエージェント環境における協調行動を特定し,促進するアルゴリズムを提案する。
まず,マルチエージェント強化学習問題に対処する既存のアルゴリズムの欠点を分析する。
そして,既存のアルゴリズムMADDPGに基づき,エージェント間の協調行動が特定されると,エージェントが得られる報酬を増やすための新しいパラメータを導入する。
最後に,PetttingZooの環境における改良アルゴリズムとMADDPGを比較した。
その結果、新しいアルゴリズムは、より高いチーム報酬と個人の報酬の両方を達成するのに役立ちます。
関連論文リスト
- Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits [24.590517939890788]
我々は、N$エージェントからなる新しい協調設定について研究し、各エージェントがM$M$のマルチアームバンディットの1つを学習している。
エージェント間の協調を容易にするアルゴリズムを2つのシナリオで開発する。
論文 参考訳(メタデータ) (2023-05-30T06:35:49Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Kernel Methods for Cooperative Multi-Agent Contextual Bandits [15.609414012418043]
協調的マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら、学習問題を協調的に解決するエージェントのグループを含む。
エージェントが得られる報酬は、関連するカーネル再生ヒルベルト空間(RKHS)におけるコンテキストのイメージの任意の線形関数である。
我々は, 年齢ごとの後悔に対して, ほぼ最適境界を与えるアルゴリズムであるtextscCoop- KernelUCBを提案する。
論文 参考訳(メタデータ) (2020-08-14T07:37:44Z) - Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in
Cooperative Tasks [11.480994804659908]
マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされている。
我々は,MARLアルゴリズムの3つのクラスを体系的に評価し,比較する。
我々の実験は、異なる学習課題におけるアルゴリズムの期待性能の基準として機能する。
論文 参考訳(メタデータ) (2020-06-14T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。