Fugu-MT 論文翻訳(概要): Birds of a Feather Flock Together: A Close Look at Cooperation Emergence via Multi-Agent RL

論文の概要: Birds of a Feather Flock Together: A Close Look at Cooperation Emergence via Multi-Agent RL

arxiv url: http://arxiv.org/abs/2104.11455v1
Date: Fri, 23 Apr 2021 08:00:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-26 12:52:39.011891
Title: Birds of a Feather Flock Together: A Close Look at Cooperation Emergence via Multi-Agent RL
Title（参考訳）: 羽の鳥が群がる:マルチエージェントrlによる協力の出現をよく見る
Authors: Heng Dong, Tonghan Wang, Jiayuan Liu, Chongjie Zhang
Abstract要約: インセンティブ機構に起因する二階社会ジレンマのダイナミクスについて検討する。ホモフィリーと呼ばれる人間の典型的な傾向は、この問題を解くことができる。インセンティブ相同性を促進するための新しい学習枠組みを提案する。
参考スコア（独自算出の注目度）: 20.22747008079794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How cooperation emerges is a long-standing and interdisciplinary problem. Game-theoretical studies on social dilemmas reveal that altruistic incentives are critical to the emergence of cooperation but their analyses are limited to stateless games. For more realistic scenarios, multi-agent reinforcement learning has been used to study sequential social dilemmas (SSDs). Recent works show that learning to incentivize other agents can promote cooperation in SSDs. However, with these incentivizing mechanisms, the team cooperation level does not converge and regularly oscillates between cooperation and defection during learning. We show that a second-order social dilemma resulting from these incentive mechanisms is the main reason for such fragile cooperation. We analyze the dynamics of this second-order social dilemma and find that a typical tendency of humans, called homophily, can solve the problem. We propose a novel learning framework to encourage incentive homophily and show that it achieves stable cooperation in both public goods dilemma and tragedy of the commons dilemma.
Abstract（参考訳）: 協力の出現は長年にわたる学際的な問題である。社会ジレンマに関するゲーム理論的研究は、利他的なインセンティブが協力の出現に不可欠であるが、その分析はステートレスゲームに限られていることを示している。より現実的なシナリオでは、連続的な社会的ジレンマ(SSD)の研究にマルチエージェント強化学習が用いられている。最近の研究は、他のエージェントにインセンティブを与える学習がssdでの協調を促進することを示している。しかしながら、これらのインセンティブ化メカニズムによって、チーム協力レベルは収束せず、学習中の協力と欠陥の間に定期的に振動する。これらのインセンティブ機構から生じる二階の社会的ジレンマが,このような脆弱な協力の主な原因であることを示す。この二階の社会的ジレンマのダイナミクスを分析し、ホモフィリーと呼ばれる人間の典型的な傾向がこの問題を解決できることを見出す。そこで本研究では,公共財のジレンマと庶民ジレンマの悲劇の両方において,安定した協調を実現するための新しい学習枠組みを提案する。

関連論文リスト

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文参考訳（メタデータ） (2025-06-29T15:02:47Z)
Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文参考訳（メタデータ） (2024-10-24T10:48:42Z)
Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。 LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文参考訳（メタデータ） (2024-10-10T12:30:56Z)
Multi-Agent, Human-Agent and Beyond: A Survey on Cooperation in Social Dilemmas [15.785674974107204]
社会ジレンマにおける協力の研究は、長年、様々な分野の基本的なトピックであった。人工知能の最近の進歩は、この分野を大きく変えた。この調査は、AIの交差点における3つの重要な領域と、社会的ジレンマにおける協力について調査する。
論文参考訳（メタデータ） (2024-02-27T07:31:30Z)
Deconstructing Cooperation and Ostracism via Multi-Agent Reinforcement Learning [3.3751859064985483]
一方のエージェントが常に協力している場合でも,ネットワークのリワイアリングが相互協力を促進することを示す。また、オストラシズムだけでは協力を浮かび上がらせるには不十分であることも分かっています。本研究は,協力の出現に必要な条件とメカニズムについて考察した。
論文参考訳（メタデータ） (2023-10-06T23:18:55Z)
Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-10-03T15:05:52Z)
Learning Roles with Emergent Social Value Orientations [49.16026283952117]
本稿では、人間社会における典型的な「労働・役割の分断」のメカニズムを紹介する。我々は、社会的価値指向(SVO)を伴う時空間的社会的ジレンマ(ISD)に対する有望な解決策を提供する。創発的SVOによる学習ロール(RESVO)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現に変換するために提案されている。
論文参考訳（メタデータ） (2023-01-31T17:54:09Z)
Investigating the Impact of Direct Punishment on the Emergence of Cooperation in Multi-Agent Reinforcement Learning Systems [2.4555276449137042]
協力の問題は、人間社会の中で一様である。 AIの利用が社会全体に広まるにつれ、社会的にインテリジェントなエージェントの必要性がますます明白になりつつある。本稿では, 直接罰, 第三者罰, パートナー選択, 評判に関連する行動と学習のダイナミクスを包括的に分析し, 評価する。
論文参考訳（メタデータ） (2023-01-19T19:33:54Z)
Intrinsic fluctuations of reinforcement learning promote cooperation [0.0]
社会的ジレンマの状況における協力は、動物、人間、機械にとって不可欠である。マルチエージェント・ラーニング・セッティングの個々の要素が協調にどのように寄与するかを実証する。
論文参考訳（メタデータ） (2022-09-01T09:14:47Z)
Tackling Asymmetric and Circular Sequential Social Dilemmas with Reinforcement Learning and Graph-based Tit-for-Tat [0.0]
社会的ジレンマは、複数の俳優が最高の結果を達成するために協力すべき状況を提供するが、怒りと恐怖は最悪の自己関心の問題に繋がる。近年、深層強化学習の出現は、逐次社会ジレンマ(SSD)の導入により、社会ジレンマへの関心が復活した。本稿では,エージェント間の協調の多様性をより一般化する新しい種類のマルコフゲームであるCircular Sequential Social Dilemma (CSSD)を用いて,SSDを拡張した。
論文参考訳（メタデータ） (2022-06-26T15:42:48Z)
Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。 Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文参考訳（メタデータ） (2022-01-05T20:54:10Z)
Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は、競合する社会的影響に基づく新しい学習メカニズムの提供に焦点を当てる。本研究は,競争競合の概念に基づいて,これらのエージェントの評価を人的視点から変えられるかを検討することを目的とする。
論文参考訳（メタデータ） (2020-11-02T21:54:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。