論文の概要: On the Complexity of Learning to Cooperate with Populations of Socially Rational Agents
- arxiv url: http://arxiv.org/abs/2407.00419v1
- Date: Sat, 29 Jun 2024 11:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:15:45.270106
- Title: On the Complexity of Learning to Cooperate with Populations of Socially Rational Agents
- Title(参考訳): 社会的合理的エージェントの集団と協調する学習の複雑さについて
- Authors: Robert Loftin, Saptarashmi Bandyopadhyay, Mustafa Mert Çelikok,
- Abstract要約: 有限繰り返しの2つのプレイヤー汎用行列ゲームにおいて,エージェントのテキストポピュレーションと協調する問題を考える。
以上の結果から,これらの仮定だけでは,標的個体群とテミセロショットの連携を確保するには不十分であることが示唆された。
効果的な協調戦略を学習するために必要なサンプル数について,上層および下層境界を提供する。
- 参考スコア(独自算出の注目度): 17.015143707851358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificially intelligent agents deployed in the real-world will require the ability to reliably \textit{cooperate} with humans (as well as other, heterogeneous AI agents). To provide formal guarantees of successful cooperation, we must make some assumptions about how partner agents could plausibly behave. Any realistic set of assumptions must account for the fact that other agents may be just as adaptable as our agent is. In this work, we consider the problem of cooperating with a \textit{population} of agents in a finitely-repeated, two player general-sum matrix game with private utilities. Two natural assumptions in such settings are that: 1) all agents in the population are individually rational learners, and 2) when any two members of the population are paired together, with high-probability they will achieve at least the same utility as they would under some Pareto efficient equilibrium strategy. Our results first show that these assumptions alone are insufficient to ensure \textit{zero-shot} cooperation with members of the target population. We therefore consider the problem of \textit{learning} a strategy for cooperating with such a population using prior observations its members interacting with one another. We provide upper and lower bounds on the number of samples needed to learn an effective cooperation strategy. Most importantly, we show that these bounds can be much stronger than those arising from a "naive'' reduction of the problem to one of imitation learning.
- Abstract(参考訳): 現実世界に展開される人工的なインテリジェントなエージェントは、人間(および他の異種AIエージェント)と確実に‘textit{cooperate’する能力を必要とする。
協力を成功させるための公式な保証を提供するためには、パートナーエージェントがどう行動するかについて、いくつかの仮定をしなければならない。
現実的な仮定の集合は、他のエージェントが我々のエージェントと同じくらい適応可能であるという事実を考慮しなければならない。
本研究では,有限繰り返しの2つのプレイヤー汎用行列ゲームにおいて,エージェントの‘textit{population}’と協調する問題を考える。
そのような設定における2つの自然な仮定は以下のとおりである。
1)集団内のすべてのエージェントは、個別に合理的な学習者であり、
2) 人口の2つのメンバーがペアになり、高い確率で、パレートの効率的な均衡戦略の下で、少なくとも同一の効用を達成する。
以上の結果から,これらの仮定だけでは,対象人口との‘textit{zero-shot’協力を確保するには不十分であることが示唆された。
そこで,本稿では,これらの集団と協調する戦略として,そのメンバー同士が相互に相互作用する事前観察を取り入れた「textit{learning}」の問題を考える。
効果的な協調戦略を学習するために必要なサンプル数について,上層および下層境界を提供する。
最も重要なことは、これらの境界は、問題を模倣学習の1つに「内在的な」還元から生じるものよりもはるかに強いことを示します。
関連論文リスト
- Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - COMBO: Compositional World Models for Embodied Multi-Agent Cooperation [64.27636858152522]
分散エージェントは、世界の部分的な自我中心的な見解にのみ、協力しなくてはならない。
我々は、部分的な自我中心の観測から世界全体の状態を推定するために生成モデルを訓練する。
複数のエージェントの自然な構成可能な共同動作を分解することにより、マルチエージェント協調のための構成的世界モデルを学ぶ。
論文 参考訳(メタデータ) (2024-04-16T17:59:11Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Towards a Unifying Model of Rationality in Multiagent Systems [11.321217099465196]
マルチエージェントシステムは、これらのエージェントが互いに協力するのと同じくらい効果的に、他のエージェント(人間を含む)と協力する必要がある。
本稿では,個々に合理的な学習者であり,相互に協力できる社会的知的エージェントの汎用モデルを提案する。
我々は、異なる形態の後悔のために、社会的にインテリジェントなエージェントを構築する方法を示します。
論文 参考訳(メタデータ) (2023-05-29T13:18:43Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Similarity-based cooperative equilibrium [29.779551971013074]
一発の囚人のジレンマのような社会的ジレンマでは、標準的なゲーム理論はMLエージェントが互いに協力することができないと予測している。
エージェントが互いにどのように似ているかを示す1つの数字のみを観察する、より現実的な設定を導入する。
これは、完全な透明性設定と同じ協調的な結果のセットを可能にすることを証明します。
論文 参考訳(メタデータ) (2022-11-26T03:43:13Z) - The art of compensation: how hybrid teams solve collective risk dilemmas [6.081979963786028]
適応剤と固定行動剤を併用したハイブリッド集団における協調の進化的ダイナミクスについて検討した。
後者の振る舞いを補うために,まず,行動に適応することを学ぶ方法を示す。
論文 参考訳(メタデータ) (2022-05-13T13:23:42Z) - Learning to Cooperate with Unseen Agent via Meta-Reinforcement Learning [4.060731229044571]
アドホックなチームワーク問題は、エージェントが共通の目標を達成するために、以前は目に見えないエージェントと協力しなければならない状況を記述する。
エージェントの振る舞いを設計するためにドメイン知識を使用することで、エージェントに協調的なスキルを実装することができる。
本稿では,メタ強化学習(meta-RL)の定式化をアドホックなチームワーク問題に応用する。
論文 参考訳(メタデータ) (2021-11-05T12:01:28Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。