Fugu-MT 論文翻訳(概要): Investigating the Impact of Direct Punishment on the Emergence of Cooperation in Multi-Agent Reinforcement Learning Systems

論文の概要: Investigating the Impact of Direct Punishment on the Emergence of Cooperation in Multi-Agent Reinforcement Learning Systems

arxiv url: http://arxiv.org/abs/2301.08278v3
Date: Mon, 17 Jun 2024 22:18:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-20 05:43:26.222396
Title: Investigating the Impact of Direct Punishment on the Emergence of Cooperation in Multi-Agent Reinforcement Learning Systems
Title（参考訳）: マルチエージェント強化学習システムにおける直接罰が協調の創発に及ぼす影響の検討
Authors: Nayana Dasgupta, Mirco Musolesi,
Abstract要約: 協力の問題は、人間社会の中で一様である。 AIの利用が社会全体に広まるにつれ、社会的にインテリジェントなエージェントの必要性がますます明白になりつつある。本稿では, 直接罰, 第三者罰, パートナー選択, 評判に関連する行動と学習のダイナミクスを包括的に分析し, 評価する。
参考スコア（独自算出の注目度）: 2.4555276449137042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solving the problem of cooperation is fundamentally important for the creation and maintenance of functional societies. Problems of cooperation are omnipresent within human society, with examples ranging from navigating busy road junctions to negotiating treaties. As the use of AI becomes more pervasive throughout society, the need for socially intelligent agents capable of navigating these complex cooperative dilemmas is becoming increasingly evident. Direct punishment is a ubiquitous social mechanism that has been shown to foster the emergence of cooperation in both humans and non-humans. In the natural world, direct punishment is often strongly coupled with partner selection and reputation and used in conjunction with third-party punishment. The interactions between these mechanisms could potentially enhance the emergence of cooperation within populations. However, no previous work has evaluated the learning dynamics and outcomes emerging from Multi-Agent Reinforcement Learning (MARL) populations that combine these mechanisms. This paper addresses this gap. It presents a comprehensive analysis and evaluation of the behaviors and learning dynamics associated with direct punishment, third-party punishment, partner selection, and reputation. Finally, we discuss the implications of using these mechanisms on the design of cooperative AI systems.
Abstract（参考訳）: 協力の問題を解決することは、機能的社会の構築と維持に根本的に重要である。協力の問題は、忙しい道路交差点の航行から条約交渉まで、人間の社会の中で一様である。社会全体でAIの利用が広まるにつれて、これらの複雑な協調ジレンマをナビゲートできる社会的にインテリジェントなエージェントの必要性がますます顕在化しつつある。直接罰は、人間と非人間の両方の協力の出現を促進することが示されている、ユビキタスな社会メカニズムである。自然界では、直接罰はパートナーの選択と評判と強く結びつき、第三者の罰と共に用いられる。これらのメカニズム間の相互作用は、集団内の協力の出現を促進する可能性がある。しかし,MARL(Multi-Agent Reinforcement Learning, マルチエージェント強化学習, MARL)集団から生まれる学習のダイナミクスや成果を,これらのメカニズムを組み合わせて評価する以前の研究は行われていない。この論文はこのギャップに対処する。直接罰、第三者罰、パートナー選択、評判に関連する行動と学習のダイナミクスを包括的に分析し、評価する。最後に,これらのメカニズムが協調型AIシステムの設計に与える影響について論じる。

関連論文リスト

Cooperation Through Indirect Reciprocity in Child-Robot Interactions [81.62347137438248]
間接的相互性は子どもとロボットの相互作用に変換できるかどうかを考察する。 IRは子どもやロボットに拡張され、協調ジレンマが解決される。マルチアームバンディットアルゴリズムによる協調は,人間による戦略に大きく依存していることが観察された。
論文参考訳（メタデータ） (2025-11-07T07:08:32Z)
Super-additive Cooperation in Language Model Agents [4.14360329494344]
この研究は、反復的相互作用とグループ間競争の複合効果が人間の協調傾向の原因であると主張する超付加的協調理論に着想を得たものである。私たちは、言語モデルエージェントがチームに分かれて、囚人のジレンマゲームで互いに対決する仮想トーナメントを考案しました。チーム内部のダイナミクスと外部の競争をシミュレートすることで、このブレンドによって、全体的なコラボレーションレベルと最初のコラボレーションレベルの両方が大幅に向上することが分かりました。
論文参考訳（メタデータ） (2025-08-21T12:36:44Z)
Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文参考訳（メタデータ） (2025-06-29T15:02:47Z)
Experimental Exploration: Investigating Cooperative Interaction Behavior Between Humans and Large Language Model Agents [11.080802144327176]
本研究は, 繰り返し行われる囚人のジレンマゲームに30人の参加者を参加させることにより, 人間の協調行動について検討した。その結果, エージェントの特徴と, 参加者の性別および特徴の相互作用効果に基づいて, 協調行動に有意な差異が認められた。この研究は、AIエージェントに対する人間のバイアスを理解することの重要性と、観察された行動が将来の人間とAIの協力のダイナミクスにどのように影響を与えるかを強調している。
論文参考訳（メタデータ） (2025-03-10T13:37:36Z)
Dehumanizing Machines: Mitigating Anthropomorphic Behaviors in Text Generation Systems [55.99010491370177]
このようなシステムアウトプットにどのように介入すれば人為的行動が緩和され、その付随する有害な結果が未検討のままである。我々は,先行研究とクラウドソース研究の両方に根ざした介入の目録を整理し,参加者がシステム出力を編集し,人間らしくないようにした。
論文参考訳（メタデータ） (2025-02-19T18:06:37Z)
Emergence of human-like polarization among large language model agents [61.622596148368906]
我々は、何千もの大規模言語モデルエージェントを含むネットワーク化されたシステムをシミュレートし、それらの社会的相互作用を発見し、人間のような偏極をもたらす。人間とLLMエージェントの類似性は、社会的分極を増幅する能力に関する懸念を提起するだけでなく、それを緩和するための有効な戦略を特定するための貴重なテストベッドとして機能する可能性も持っている。
論文参考訳（メタデータ） (2025-01-09T11:45:05Z)
Causal Responsibility Attribution for Human-AI Collaboration [62.474732677086855]
本稿では,人間のAIシステムにおける責任を体系的に評価するために,構造因果モデル(SCM)を用いた因果的枠組みを提案する。 2つのケーススタディは、多様な人間とAIのコラボレーションシナリオにおけるフレームワークの適応性を示している。
論文参考訳（メタデータ） (2024-11-05T17:17:45Z)
Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文参考訳（メタデータ） (2024-10-24T10:48:42Z)
Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。 LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文参考訳（メタデータ） (2024-10-10T12:30:56Z)
Overcoming the Machine Penalty with Imperfectly Fair AI Agents [14.576971868730709]
人間は機械と協力する傾向があり、機械ペナルティとして知られる現象である。大規模言語モデルを用いたAIエージェントは,コミュニケーションを伴うソーシャルジレンマゲームにおいて,このペナルティを克服できることを示す。分析によると、公正なエージェントは人間の参加者と同様、時にはゲーム前協力の約束を破るが、それでも効果的な社会規範として協力を確立する。
論文参考訳（メタデータ） (2024-09-29T10:11:25Z)
Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task [56.92961847155029]
心の理論(ToM)は、他人を理解する上で重要な能力として、人間の協調とコミュニケーションに大きな影響を及ぼす。 Mutual Theory of Mind (MToM) は、ToM能力を持つAIエージェントが人間と協力するときに発生する。エージェントのToM能力はチームのパフォーマンスに大きな影響を与えず,エージェントの人間的理解を高めていることがわかった。
論文参考訳（メタデータ） (2024-09-13T13:19:48Z)
Emergent Cooperation under Uncertain Incentive Alignment [7.906156032228933]
頻繁な出会いを特徴とするシナリオにおける強化学習エージェント間の協力関係について検討する。本研究では,複合モチベーション環境における協調を促進するために文献で提案されている評価や本質的な報酬などのメカニズムの効果について検討する。
論文参考訳（メタデータ） (2024-01-23T10:55:54Z)
SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (2023-10-18T02:27:01Z)
Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-10-03T15:05:52Z)
The art of compensation: how hybrid teams solve collective risk dilemmas [6.081979963786028]
適応剤と固定行動剤を併用したハイブリッド集団における協調の進化的ダイナミクスについて検討した。後者の振る舞いを補うために,まず,行動に適応することを学ぶ方法を示す。
論文参考訳（メタデータ） (2022-05-13T13:23:42Z)
Adversarial Attacks in Cooperative AI [0.0]
多エージェント環境における単エージェント強化学習アルゴリズムは協調の育成には不十分である。敵機械学習における最近の研究は、モデルは容易に誤った決定を下すことができることを示している。協調AIは、以前の機械学習研究では研究されなかった新たな弱点を導入する可能性がある。
論文参考訳（メタデータ） (2021-11-29T07:34:12Z)
Birds of a Feather Flock Together: A Close Look at Cooperation Emergence via Multi-Agent RL [20.22747008079794]
インセンティブ機構に起因する二階社会ジレンマのダイナミクスについて検討する。ホモフィリーと呼ばれる人間の典型的な傾向は、この問題を解くことができる。インセンティブ相同性を促進するための新しい学習枠組みを提案する。
論文参考訳（メタデータ） (2021-04-23T08:00:45Z)
Cooperation and Reputation Dynamics with Reinforcement Learning [6.219565750197311]
私達は信頼および協同を確立する方法として評判がいかに使用されるか示します。好ましくない平衡への収束を緩和する2つのメカニズムを提案する。この結果が進化ゲーム理論の文献とどのように関係しているかを示す。
論文参考訳（メタデータ） (2021-02-15T12:48:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。