論文の概要: Beyond the high score: Prosocial ability profiles of multi-agent populations
- arxiv url: http://arxiv.org/abs/2509.14485v1
- Date: Wed, 17 Sep 2025 23:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.003374
- Title: Beyond the high score: Prosocial ability profiles of multi-agent populations
- Title(参考訳): 高得点を超えて:マルチエージェント人口の社会的能力プロファイル
- Authors: Marko Tesic, Yue Zhao, Joel Z. Leibo, Rakshit S. Trivedi, Jose Hernandez-Orallo,
- Abstract要約: Melting Potコンテストは、AIシステムの協調能力を評価するために設計された、ソーシャルAI評価スイートである。
我々は,メルティングポットコンテストにおけるマルチエージェントシステムの能力プロファイルを推定するために,測定レイアウトとして知られるベイズ的手法を適用した。
これらの能力プロファイルは,メルティングポットスイート内での今後のパフォーマンスを予測するだけでなく,エージェントの社会的能力の基盤を明らかにする。
- 参考スコア(独自算出の注目度): 7.740015167057365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development and evaluation of social capabilities in AI agents require complex environments where competitive and cooperative behaviours naturally emerge. While game-theoretic properties can explain why certain teams or agent populations outperform others, more abstract behaviours, such as convention following, are harder to control in training and evaluation settings. The Melting Pot contest is a social AI evaluation suite designed to assess the cooperation capabilities of AI systems. In this paper, we apply a Bayesian approach known as Measurement Layouts to infer the capability profiles of multi-agent systems in the Melting Pot contest. We show that these capability profiles not only predict future performance within the Melting Pot suite but also reveal the underlying prosocial abilities of agents. Our analysis indicates that while higher prosocial capabilities sometimes correlate with better performance, this is not a universal trend-some lower-scoring agents exhibit stronger cooperation abilities. Furthermore, we find that top-performing contest submissions are more likely to achieve high scores in scenarios where prosocial capabilities are not required. These findings, together with reports that the contest winner used a hard-coded solution tailored to specific environments, suggest that at least one top-performing team may have optimised for conditions where cooperation was not necessary, potentially exploiting limitations in the evaluation framework. We provide recommendations for improving the annotation of cooperation demands and propose future research directions to account for biases introduced by different testing environments. Our results demonstrate that Measurement Layouts offer both strong predictive accuracy and actionable insights, contributing to a more transparent and generalisable approach to evaluating AI systems in complex social settings.
- Abstract(参考訳): AIエージェントにおける社会的能力の開発と評価は、競争的かつ協調的な行動が自然に現れる複雑な環境を必要とする。
ゲーム理論の特性は、特定のチームやエージェントの集団が他より優れている理由を説明することができるが、慣例のようなより抽象的な行動は、トレーニングや評価設定において制御するのが困難である。
Melting Potコンテストは、AIシステムの協調能力を評価するために設計された、ソーシャルAI評価スイートである。
本稿では,メルティングポットコンテストにおけるマルチエージェントシステムの能力プロファイルを推定するために,測定レイアウトとして知られるベイズ的手法を適用する。
これらの能力プロファイルは,メルティングポットスイート内での今後のパフォーマンスを予測するだけでなく,エージェントの社会的能力の基盤を明らかにする。
分析の結果,高い社会的能力はより良いパフォーマンスと相関することがあるが,これは普遍的な傾向ではなく,より強い協調能力を示すことが示唆された。
さらに, 社会的能力を必要としないシナリオでは, 成績の高いコンテストの応募者の方が高いスコアを得る可能性が示唆された。
これらの結果は、コンテストの勝者が特定の環境に合わせてハードコードされたソリューションを使用したという報告とともに、少なくとも1つのトップパフォーマンスチームは、協力が不要な状況に最適化し、評価フレームワークの制限を悪用した可能性があることを示唆している。
我々は、協力要求のアノテーションを改善するための勧告と、異なるテスト環境によって導入されたバイアスを考慮に入れた今後の研究方向性を提案する。
我々の結果は、測定レイアウトが強力な予測精度と行動可能な洞察を提供し、複雑な社会環境でAIシステムを評価するためのより透明で一般化可能なアプローチに寄与していることを実証している。
関連論文リスト
- Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia [100.74015791021044]
大規模言語モデル(LLM)エージェントは、社会的相互作用の素晴らしい能力を実証している。
既存の評価手法は、これらの能力がいかに新しい社会的状況に一般化するかを測ることに失敗する。
我々は,NeurIPS 2024 Concordia Contestで,エージェントが相互利得を達成する能力について評価した経験的結果を示す。
論文 参考訳(メタデータ) (2025-12-03T00:11:05Z) - The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - Towards Recommender Systems LLMs Playground (RecSysLLMsP): Exploring Polarization and Engagement in Simulated Social Networks [6.813586966214873]
本稿では,Large Language Models (LLMs) を利用した新しいシミュレーションフレームワークを提案する。
説明的、静的、動的属性を持つ多様なAIエージェントを作成することで、3つのシナリオにわたって自律的な振る舞いを評価する。
本研究は, 社会的分極を緩和しつつ, ユーザの満足度を高めるためのレコメンデータシステム設計において, 慎重なバランスの必要性を強調するものである。
論文 参考訳(メタデータ) (2025-01-29T14:23:34Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Melting Pot 2.0 [54.60680281014163]
Melting Potは、マルチエージェント人工知能の開発を容易にするために開発されたツールである。
新たなソーシャルパートナーへの一般化を測定する評価プロトコルを提供する。
Melting Potは、最も多様な相互依存とインセンティブの集合をカバーすることを目指している。
論文 参考訳(メタデータ) (2022-11-24T18:23:28Z) - Warmth and competence in human-agent cooperation [0.7237068561453082]
近年の研究では、深層強化学習で訓練されたAIエージェントが人間と協調できることが示されている。
われわれは2人プレイのソーシャルジレンマであるCoinsで深層強化学習エージェントを訓練している。
参加者の温かさと能力に対する認識は、異なるエージェントに対する表現された嗜好を予測する。
論文 参考訳(メタデータ) (2022-01-31T18:57:08Z) - On Emergent Communication in Competitive Multi-Agent Teams [116.95067289206919]
外部のエージェントチームによるパフォーマンスの競争が社会的影響として作用するかどうかを検討する。
以上の結果から,外部競争の影響により精度と一般化が向上し,コミュニケーション言語が急速に出現することが示唆された。
論文 参考訳(メタデータ) (2020-03-04T01:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。