論文の概要: Normative Disagreement as a Challenge for Cooperative AI
- arxiv url: http://arxiv.org/abs/2111.13872v1
- Date: Sat, 27 Nov 2021 11:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 11:15:51.916607
- Title: Normative Disagreement as a Challenge for Cooperative AI
- Title(参考訳): 協調aiへの挑戦としての規範的不一致
- Authors: Julian Stastny, Maxime Rich\'e, Alexander Lyzhov, Johannes Treutlein,
Allan Dafoe, Jesse Clifton
- Abstract要約: 典型的な協調誘導学習アルゴリズムは、問題の解決に協力することができないと論じる。
我々は,ノルム適応政策のクラスを開発し,これらが協調性を著しく向上させることを示す実験を行った。
- 参考スコア(独自算出の注目度): 56.34005280792013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperation in settings where agents have both common and conflicting
interests (mixed-motive environments) has recently received considerable
attention in multi-agent learning. However, the mixed-motive environments
typically studied have a single cooperative outcome on which all agents can
agree. Many real-world multi-agent environments are instead bargaining problems
(BPs): they have several Pareto-optimal payoff profiles over which agents have
conflicting preferences. We argue that typical cooperation-inducing learning
algorithms fail to cooperate in BPs when there is room for normative
disagreement resulting in the existence of multiple competing cooperative
equilibria, and illustrate this problem empirically. To remedy the issue, we
introduce the notion of norm-adaptive policies. Norm-adaptive policies are
capable of behaving according to different norms in different circumstances,
creating opportunities for resolving normative disagreement. We develop a class
of norm-adaptive policies and show in experiments that these significantly
increase cooperation. However, norm-adaptiveness cannot address residual
bargaining failure arising from a fundamental tradeoff between exploitability
and cooperative robustness.
- Abstract(参考訳): エージェントが共通の関心と相反する関心(混合モチベーション環境)を持つ環境での協調は、近年、マルチエージェント学習において大きな注目を集めている。
しかし、混合動機環境は通常、すべてのエージェントが合意できる単一の協調的な結果をもたらす。
多くの現実世界のマルチエージェント環境は、代わりに問題(BP)に直面している。
我々は、複数の競合する協調平衡が存在することにつながる規範的不一致の余地がある場合、典型的な協調誘導学習アルゴリズムはBPで協調することができないと論じ、この問題を実証的に説明する。
この問題を解決するために,規範適応政策の概念を導入する。
ノルム適応政策は異なる状況下で異なる規範に従って行動し、規範的不一致を解決する機会を生み出すことができる。
我々は,規範適応ポリシーのクラスを開発し,協調性が著しく向上することを示す。
しかし、ノルム適応性は、エクスプロイラビリティと協調的ロバストネスの根本的なトレードオフから生じる残差の解消には対処できない。
関連論文リスト
- Role Play: Learning Adaptive Role-Specific Strategies in Multi-Agent Interactions [8.96091816092671]
emphRole Play (RP) という新しいフレームワークを提案する。
RPは、政策の多様性の課題を、より管理可能な役割の多様性に変えるために役割埋め込みを採用している。
ロール埋め込み観察で共通の方針を訓練し、他のエージェントのジョイントロール埋め込みを推定するためにロール予測器を使用し、学習エージェントが割り当てられた役割に適応するのを助ける。
論文 参考訳(メタデータ) (2024-11-02T07:25:48Z) - Learning and Sustaining Shared Normative Systems via Bayesian Rule
Induction in Markov Games [2.307051163951559]
私たちは、組み込まれた人間の機関と柔軟に協力する学習エージェントを構築します。
共有規範を仮定することにより、新しく導入されたエージェントは、コンプライアンスと違反の観察から既存の人口の規範を推測することができる。
エージェントは規範に関する共通の知識をブートストラップできるため、このことは規範を広く定着させ、新しい参加者がこれらの規範を迅速に学習することを可能にする。
論文 参考訳(メタデータ) (2024-02-20T21:58:40Z) - Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning [71.53769213321202]
環境の調整レベルと不均一度の概念を定式化する。
異なるMARLアプローチの実証評価を容易にするマルチエージェント環境のスイートであるHECOGridを提案する。
本研究では,エージェントが高配向環境と高配向環境において効率的に作業することを可能にする訓練分散実行学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T18:17:01Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Balancing Rational and Other-Regarding Preferences in
Cooperative-Competitive Environments [4.705291741591329]
混合環境は利己的で社会的利益の衝突で悪名高い。
個人と社会的インセンティブのバランスをとるBAROCCOを提案します。
メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。
論文 参考訳(メタデータ) (2021-02-24T14:35:32Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。