論文の概要: Balancing Rational and Other-Regarding Preferences in
Cooperative-Competitive Environments
- arxiv url: http://arxiv.org/abs/2102.12307v1
- Date: Wed, 24 Feb 2021 14:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:38:32.568342
- Title: Balancing Rational and Other-Regarding Preferences in
Cooperative-Competitive Environments
- Title(参考訳): 協調競争環境における合理性その他の配慮のバランス
- Authors: Dmitry Ivanov, Vladimir Egorov, Aleksei Shpilman
- Abstract要約: 混合環境は利己的で社会的利益の衝突で悪名高い。
個人と社会的インセンティブのバランスをとるBAROCCOを提案します。
メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。
- 参考スコア(独自算出の注目度): 4.705291741591329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reinforcement learning studies extensively explore the interplay
between cooperative and competitive behaviour in mixed environments. Unlike
cooperative environments where agents strive towards a common goal, mixed
environments are notorious for the conflicts of selfish and social interests.
As a consequence, purely rational agents often struggle to achieve and maintain
cooperation. A prevalent approach to induce cooperative behaviour is to assign
additional rewards based on other agents' well-being. However, this approach
suffers from the issue of multi-agent credit assignment, which can hinder
performance. This issue is efficiently alleviated in cooperative setting with
such state-of-the-art algorithms as QMIX and COMA. Still, when applied to mixed
environments, these algorithms may result in unfair allocation of rewards. We
propose BAROCCO, an extension of these algorithms capable to balance individual
and social incentives. The mechanism behind BAROCCO is to train two distinct
but interwoven components that jointly affect each agent's decisions. Our
meta-algorithm is compatible with both Q-learning and Actor-Critic frameworks.
We experimentally confirm the advantages over the existing methods and explore
the behavioural aspects of BAROCCO in two mixed multi-agent setups.
- Abstract(参考訳): 最近の強化学習研究は、混合環境における協調行動と競争行動の相互作用を広く探求している。
エージェントが共通の目標を目指す協調環境とは異なり、混合環境は利己的で社会的利益の衝突で悪名高い。
結果として、純粋合理的なエージェントはしばしば協力の達成と維持に苦労する。
協調行動を促す一般的なアプローチは、他のエージェントの幸福に基づいて追加の報酬を割り当てることである。
しかし、このアプローチは、パフォーマンスを妨げる可能性のあるマルチエージェントクレジット割り当ての問題に苦しんでいます。
この問題はqmixやcomaといった最先端アルゴリズムと協調して効率的に解決される。
それでも、混合環境に適用した場合、これらのアルゴリズムは報酬の不正な割り当てをもたらす可能性がある。
個人と社会的インセンティブのバランスをとるアルゴリズムの拡張であるBAROCCOを提案します。
BAROCCOの背後にあるメカニズムは、各エージェントの決定に共同で影響する2つの異なるが織り交ぜられたコンポーネントを訓練することです。
メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。
本研究では,既存の手法の利点を実験的に検証し,BAROCCOの行動的側面を2つの混合マルチエージェント設定で検討する。
関連論文リスト
- Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - Emergent Cooperation under Uncertain Incentive Alignment [7.906156032228933]
頻繁な出会いを特徴とするシナリオにおける強化学習エージェント間の協力関係について検討する。
本研究では,複合モチベーション環境における協調を促進するために文献で提案されている評価や本質的な報酬などのメカニズムの効果について検討する。
論文 参考訳(メタデータ) (2024-01-23T10:55:54Z) - Situation-Dependent Causal Influence-Based Cooperative Multi-agent
Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。
本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。
結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文 参考訳(メタデータ) (2023-12-15T05:09:32Z) - CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision-Making [2.4555276449137042]
ロバストコーディネートスキルにより、エージェントは共有環境で、共通の目標に向けて、そして理想的には、お互いの進歩を妨げることなく、結合的に操作することができる。
本稿では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIXについて述べる。
論文 参考訳(メタデータ) (2023-08-21T13:45:44Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - Revisiting QMIX: Discriminative Credit Assignment by Gradient Entropy
Regularization [126.87359177547455]
協力的なマルチエージェントシステムでは、エージェントは共同で行動し、個々の報酬ではなくチーム報酬を受け取る。
個々の報酬信号がない場合は、通常、異なるエージェントの貢献を識別するためにクレジット代入機構が導入される。
クレジット割当測定の新しい視点を提案し,QMIXがエージェントへのクレジット割当において限定的な差別性に悩まされていることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-09T12:37:55Z) - Normative Disagreement as a Challenge for Cooperative AI [56.34005280792013]
典型的な協調誘導学習アルゴリズムは、問題の解決に協力することができないと論じる。
我々は,ノルム適応政策のクラスを開発し,これらが協調性を著しく向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-27T11:37:42Z) - Cooperative and Competitive Biases for Multi-Agent Reinforcement
Learning [12.676356746752893]
マルチエージェント強化学習(MARL)アルゴリズムのトレーニングは,単一エージェント強化学習アルゴリズムのトレーニングよりも難しい。
本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。
本アルゴリズムは, 多様な協調競合環境において, 既存のアルゴリズムを上回っていることを実証した。
論文 参考訳(メタデータ) (2021-01-18T05:52:22Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。