論文の概要: Offsetting Unequal Competition through RL-assisted Incentive Schemes
- arxiv url: http://arxiv.org/abs/2201.01450v1
- Date: Wed, 5 Jan 2022 04:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 14:55:39.702386
- Title: Offsetting Unequal Competition through RL-assisted Incentive Schemes
- Title(参考訳): RL支援インセンティブスキームによるオフセット不等競争
- Authors: Paramita Koley, Aurghya Maiti, Sourangshu Bhattacharya, and Niloy
Ganguly
- Abstract要約: 本稿では,不平等な専門知識を持つ組織間の競争のダイナミクスについて検討する。
We design Touch-Mark, a game based on well-known multi-agent- Particle-environment。
- 参考スコア(独自算出の注目度): 18.57907480363166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the dynamics of competition among organizations with
unequal expertise. Multi-agent reinforcement learning has been used to simulate
and understand the impact of various incentive schemes designed to offset such
inequality. We design Touch-Mark, a game based on well-known
multi-agent-particle-environment, where two teams (weak, strong) with unequal
but changing skill levels compete against each other. For training such a game,
we propose a novel controller assisted multi-agent reinforcement learning
algorithm \our\, which empowers each agent with an ensemble of policies along
with a supervised controller that by selectively partitioning the sample space,
triggers intelligent role division among the teammates. Using C-MADDPG as an
underlying framework, we propose an incentive scheme for the weak team such
that the final rewards of both teams become the same. We find that in spite of
the incentive, the final reward of the weak team falls short of the strong
team. On inspecting, we realize that an overall incentive scheme for the weak
team does not incentivize the weaker agents within that team to learn and
improve. To offset this, we now specially incentivize the weaker player to
learn and as a result, observe that the weak team beyond an initial phase
performs at par with the stronger team. The final goal of the paper has been to
formulate a dynamic incentive scheme that continuously balances the reward of
the two teams. This is achieved by devising an incentive scheme enriched with
an RL agent which takes minimum information from the environment.
- Abstract(参考訳): 本稿では,不平等な専門知識を持つ組織間の競争のダイナミクスについて検討する。
マルチエージェント強化学習は、このような不平等を相殺するために設計された様々なインセンティブスキームの影響をシミュレートし、理解するために使われてきた。
このゲームでは、不平等だがスキルレベルが変化している2つのチーム(弱く強い)が互いに競い合う。
そこで,本研究では,マルチエージェント強化学習アルゴリズム \our\ を提案する。これは,各エージェントにポリシーのアンサンブルを付与するとともに,サンプル空間を選択的に分割することで,チームメート間のインテリジェントなロール分割を誘発する教師付きコントローラである。
C-MADDPGを基盤となるフレームワークとして、両チームの最終的な報酬が同じになるように、弱いチームのためのインセンティブスキームを提案する。
インセンティブにもかかわらず、弱いチームの最終的な報酬は、強いチームから外れていることに気付きます。
検査では、弱いチームの全体的なインセンティブスキームが、そのチーム内の弱いエージェントに学習と改善のインセンティブを与えないことに気付きました。
これを相殺するため、我々は、より弱いプレイヤーに学習のインセンティブを与え、その結果、初期段階を超えて弱いチームがより強いチームと同等のパフォーマンスを発揮することを観察する。
論文の最終目標は、2つのチームの報酬を継続的にバランスをとる動的インセンティブスキームを策定することであった。
これは環境から最小限の情報を取得するrlエージェントを富んだインセンティブスキームを考案することで実現される。
関連論文リスト
- Transformer Guided Coevolution: Improved Team Formation in Multiagent Adversarial Games [1.2338485391170533]
そこで本稿では,Masked Language Modelトレーニングを用いたトランスフォーマーに基づくディープニューラルネットワークを用いて,トレーニング対象者の最適なチームを選択するアルゴリズムを提案する。
我々は,マルチエージェント対逆ゲーム「Marine Capture-The-Flag」で本アルゴリズムを検証した結果,BERTeam が非自明なチーム構成を学習し,見知らぬ相手に対して良好に動作していることが判明した。
論文 参考訳(メタデータ) (2024-10-17T17:06:41Z) - Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach [11.740631954398292]
Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:14:29Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Cooperation or Competition: Avoiding Player Domination for Multi-Target
Robustness via Adaptive Budgets [76.20705291443208]
我々は、敵攻撃を、異なるプレイヤーがパラメータ更新の合同方向で合意に達するために交渉する交渉ゲームであると見なしている。
我々は、プレイヤーの優位性を避けるために、異なる敵の予算を調整する新しいフレームワークを設計する。
標準ベンチマークの実験では、提案したフレームワークを既存のアプローチに適用することで、マルチターゲットロバスト性が大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-06-27T14:02:10Z) - Neural Payoff Machines: Predicting Fair and Stable Payoff Allocations
Among Team Members [13.643650155415484]
ニューラルネットワークをトレーニングすることで,協調的なゲーム理論解を学習モデルに蒸留する方法を示す。
我々の手法はトレーニング分布から遠く離れたゲームに一般化できるモデルを作成する。
私たちのフレームワークの重要な応用は、説明可能なAIです。
論文 参考訳(メタデータ) (2022-08-18T12:33:09Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition [88.26752130107259]
現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。
この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。
1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
論文 参考訳(メタデータ) (2021-05-18T17:27:37Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。