論文の概要: Similarity-based cooperative equilibrium
- arxiv url: http://arxiv.org/abs/2211.14468v2
- Date: Sun, 12 Nov 2023 16:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 22:56:50.691561
- Title: Similarity-based cooperative equilibrium
- Title(参考訳): 類似性に基づく協調均衡
- Authors: Caspar Oesterheld, Johannes Treutlein, Roger Grosse, Vincent Conitzer,
Jakob Foerster
- Abstract要約: 一発の囚人のジレンマのような社会的ジレンマでは、標準的なゲーム理論はMLエージェントが互いに協力することができないと予測している。
エージェントが互いにどのように似ているかを示す1つの数字のみを観察する、より現実的な設定を導入する。
これは、完全な透明性設定と同じ協調的な結果のセットを可能にすることを証明します。
- 参考スコア(独自算出の注目度): 29.779551971013074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning agents act more autonomously in the world, they will
increasingly interact with each other. Unfortunately, in many social dilemmas
like the one-shot Prisoner's Dilemma, standard game theory predicts that ML
agents will fail to cooperate with each other. Prior work has shown that one
way to enable cooperative outcomes in the one-shot Prisoner's Dilemma is to
make the agents mutually transparent to each other, i.e., to allow them to
access one another's source code (Rubinstein 1998, Tennenholtz 2004) -- or
weights in the case of ML agents. However, full transparency is often
unrealistic, whereas partial transparency is commonplace. Moreover, it is
challenging for agents to learn their way to cooperation in the full
transparency setting. In this paper, we introduce a more realistic setting in
which agents only observe a single number indicating how similar they are to
each other. We prove that this allows for the same set of cooperative outcomes
as the full transparency setting. We also demonstrate experimentally that
cooperation can be learned using simple ML methods.
- Abstract(参考訳): 機械学習エージェントが世界でより自律的に振る舞うようになると、互いに対話し合うようになる。
残念なことに、一発の囚人のジレンマのような多くの社会的ジレンマでは、標準的なゲーム理論はMLエージェントが互いに協力することができないと予測している。
以前の研究は、一発の囚人のジレンマにおける協調的な結果を可能にする方法の一つとして、エージェント同士が相互に透過的にアクセスできるようにすること(Rubinstein 1998, Tennenholtz 2004)、あるいはMLエージェントの場合の重みが示されている。
しかし、完全な透明性はしばしば非現実的であるが、部分的な透明性は一般的である。
さらに、エージェントが完全な透明性設定で協力する方法を学ぶことは困難である。
本稿では,エージェントが互いにどのように類似しているかを示す1つの数字のみを観察する,より現実的な設定を提案する。
これにより、完全な透明性設定と同じ協調的な結果が得られることを証明します。
また,簡単なml手法で協調を学習できることを実験的に示す。
関連論文リスト
- On the Complexity of Learning to Cooperate with Populations of Socially Rational Agents [17.015143707851358]
有限繰り返しの2つのプレイヤー汎用行列ゲームにおいて,エージェントのテキストポピュレーションと協調する問題を考える。
以上の結果から,これらの仮定だけでは,標的個体群とテミセロショットの連携を確保するには不十分であることが示唆された。
効果的な協調戦略を学習するために必要なサンプル数について,上層および下層境界を提供する。
論文 参考訳(メタデータ) (2024-06-29T11:59:52Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities [5.034692611033509]
我々は,LiDARとカメラを用いた協調認識パラダイムBM2CPを提案し,効率的なマルチモーダル認識を実現する。
センサーの1つ、同じまたは異なるタイプのエージェントが欠落している場合に対処することができる。
提案手法は,シミュレーションおよび実世界の自律走行シナリオにおいて,50倍の通信量で最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z) - On the Impossibility of Learning to Cooperate with Adaptive Partner
Strategies in Repeated Games [13.374518263328763]
繰り返し行列ゲームにおいて,全ての適応的パートナーと協調する学習アルゴリズムが確実に学習できないことを示す。
次に、適応的パートナーが我々の行動に合理的に適応するという考えを捉えた、潜在的に代替的な仮定について議論する。
論文 参考訳(メタデータ) (2022-06-20T16:59:12Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Cooperative-Competitive Reinforcement Learning with History-Dependent
Rewards [12.41853254173419]
エージェントの意思決定問題は,対話的部分観測可能なマルコフ決定プロセス(I-POMDP)としてモデル化可能であることを示す。
本稿では,対話型アドバンテージアクター批判手法(IA2C$+$)を提案する。
実験の結果、IA2C$+$は他のいくつかのベースラインよりも早く、より堅牢に最適なポリシーを学ぶことが示されている。
論文 参考訳(メタデータ) (2020-10-15T21:37:07Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。