論文の概要: SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents
- arxiv url: http://arxiv.org/abs/2310.11667v2
- Date: Fri, 22 Mar 2024 18:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:45:56.260365
- Title: SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents
- Title(参考訳): SOTOPIA:言語エージェントにおけるソーシャルインテリジェンスのための対話的評価
- Authors: Xuhui Zhou, Hao Zhu, Leena Mathur, Ruohong Zhang, Haofei Yu, Zhengyang Qi, Louis-Philippe Morency, Yonatan Bisk, Daniel Fried, Graham Neubig, Maarten Sap,
- Abstract要約: 人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 107.4138224020773
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans are social beings; we pursue social goals in our daily interactions, which is a crucial aspect of social intelligence. Yet, AI systems' abilities in this realm remain elusive. We present SOTOPIA, an open-ended environment to simulate complex social interactions between artificial agents and evaluate their social intelligence. In our environment, agents role-play and interact under a wide variety of scenarios; they coordinate, collaborate, exchange, and compete with each other to achieve complex social goals. We simulate the role-play interaction between LLM-based agents and humans within this task space and evaluate their performance with a holistic evaluation framework called SOTOPIA-Eval. With SOTOPIA, we find significant differences between these models in terms of their social intelligence, and we identify a subset of SOTOPIA scenarios, SOTOPIA-hard, that is generally challenging for all models. We find that on this subset, GPT-4 achieves a significantly lower goal completion rate than humans and struggles to exhibit social commonsense reasoning and strategic communication skills. These findings demonstrate SOTOPIA's promise as a general platform for research on evaluating and improving social intelligence in artificial agents.
- Abstract(参考訳): 人間は社会的存在であり、社会知性の重要な側面である日々の交流において社会的目標を追求する。
しかし、この領域におけるAIシステムの能力はいまだ解明されていない。
人工エージェント間の複雑な社会的相互作用をシミュレートし,その社会的知性を評価するためのオープンな環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
SOTOPIA-Eval と呼ばれる総合評価フレームワークを用いて,LLM をベースとしたエージェントと人間とのロールプレイの相互作用をシミュレートし,その性能評価を行う。
SOTOPIAでは、これらのモデル間で社会的知性の観点から大きな違いが見られ、SOTOPIAのシナリオのサブセットであるSOTOPIA-hardを特定します。
このサブセットでは,GPT-4は人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
これらの結果から,SOTOPIAは人工エージェントにおける社会的知能の評価・改善のための総合的なプラットフォームとしての存在が示唆された。
関連論文リスト
- AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions [67.60397632819202]
ソーシャルインテリジェントAIエージェント(Social-AI)の構築は、多分野、マルチモーダルな研究目標である。
我々は、社会AIを前進させるために、基礎となる技術的課題と、コンピューティングコミュニティ全体にわたる研究者のためのオープンな質問を特定します。
論文 参考訳(メタデータ) (2024-04-17T02:57:42Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。