論文の概要: Beyond the high score: Prosocial ability profiles of multi-agent populations
- arxiv url: http://arxiv.org/abs/2509.14485v1
- Date: Wed, 17 Sep 2025 23:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.003374
- Title: Beyond the high score: Prosocial ability profiles of multi-agent populations
- Title(参考訳): 高得点を超えて:マルチエージェント人口の社会的能力プロファイル
- Authors: Marko Tesic, Yue Zhao, Joel Z. Leibo, Rakshit S. Trivedi, Jose Hernandez-Orallo,
- Abstract要約: Melting Potコンテストは、AIシステムの協調能力を評価するために設計された、ソーシャルAI評価スイートである。
我々は,メルティングポットコンテストにおけるマルチエージェントシステムの能力プロファイルを推定するために,測定レイアウトとして知られるベイズ的手法を適用した。
これらの能力プロファイルは,メルティングポットスイート内での今後のパフォーマンスを予測するだけでなく,エージェントの社会的能力の基盤を明らかにする。
- 参考スコア(独自算出の注目度): 7.740015167057365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development and evaluation of social capabilities in AI agents require complex environments where competitive and cooperative behaviours naturally emerge. While game-theoretic properties can explain why certain teams or agent populations outperform others, more abstract behaviours, such as convention following, are harder to control in training and evaluation settings. The Melting Pot contest is a social AI evaluation suite designed to assess the cooperation capabilities of AI systems. In this paper, we apply a Bayesian approach known as Measurement Layouts to infer the capability profiles of multi-agent systems in the Melting Pot contest. We show that these capability profiles not only predict future performance within the Melting Pot suite but also reveal the underlying prosocial abilities of agents. Our analysis indicates that while higher prosocial capabilities sometimes correlate with better performance, this is not a universal trend-some lower-scoring agents exhibit stronger cooperation abilities. Furthermore, we find that top-performing contest submissions are more likely to achieve high scores in scenarios where prosocial capabilities are not required. These findings, together with reports that the contest winner used a hard-coded solution tailored to specific environments, suggest that at least one top-performing team may have optimised for conditions where cooperation was not necessary, potentially exploiting limitations in the evaluation framework. We provide recommendations for improving the annotation of cooperation demands and propose future research directions to account for biases introduced by different testing environments. Our results demonstrate that Measurement Layouts offer both strong predictive accuracy and actionable insights, contributing to a more transparent and generalisable approach to evaluating AI systems in complex social settings.
- Abstract(参考訳): AIエージェントにおける社会的能力の開発と評価は、競争的かつ協調的な行動が自然に現れる複雑な環境を必要とする。
ゲーム理論の特性は、特定のチームやエージェントの集団が他より優れている理由を説明することができるが、慣例のようなより抽象的な行動は、トレーニングや評価設定において制御するのが困難である。
Melting Potコンテストは、AIシステムの協調能力を評価するために設計された、ソーシャルAI評価スイートである。
本稿では,メルティングポットコンテストにおけるマルチエージェントシステムの能力プロファイルを推定するために,測定レイアウトとして知られるベイズ的手法を適用する。
これらの能力プロファイルは,メルティングポットスイート内での今後のパフォーマンスを予測するだけでなく,エージェントの社会的能力の基盤を明らかにする。
分析の結果,高い社会的能力はより良いパフォーマンスと相関することがあるが,これは普遍的な傾向ではなく,より強い協調能力を示すことが示唆された。
さらに, 社会的能力を必要としないシナリオでは, 成績の高いコンテストの応募者の方が高いスコアを得る可能性が示唆された。
これらの結果は、コンテストの勝者が特定の環境に合わせてハードコードされたソリューションを使用したという報告とともに、少なくとも1つのトップパフォーマンスチームは、協力が不要な状況に最適化し、評価フレームワークの制限を悪用した可能性があることを示唆している。
我々は、協力要求のアノテーションを改善するための勧告と、異なるテスト環境によって導入されたバイアスを考慮に入れた今後の研究方向性を提案する。
我々の結果は、測定レイアウトが強力な予測精度と行動可能な洞察を提供し、複雑な社会環境でAIシステムを評価するためのより透明で一般化可能なアプローチに寄与していることを実証している。
関連論文リスト
- Towards Recommender Systems LLMs Playground (RecSysLLMsP): Exploring Polarization and Engagement in Simulated Social Networks [6.813586966214873]
本稿では,Large Language Models (LLMs) を利用した新しいシミュレーションフレームワークを提案する。
説明的、静的、動的属性を持つ多様なAIエージェントを作成することで、3つのシナリオにわたって自律的な振る舞いを評価する。
本研究は, 社会的分極を緩和しつつ, ユーザの満足度を高めるためのレコメンデータシステム設計において, 慎重なバランスの必要性を強調するものである。
論文 参考訳(メタデータ) (2025-01-29T14:23:34Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Warmth and competence in human-agent cooperation [0.7237068561453082]
近年の研究では、深層強化学習で訓練されたAIエージェントが人間と協調できることが示されている。
われわれは2人プレイのソーシャルジレンマであるCoinsで深層強化学習エージェントを訓練している。
参加者の温かさと能力に対する認識は、異なるエージェントに対する表現された嗜好を予測する。
論文 参考訳(メタデータ) (2022-01-31T18:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。