論文の概要: LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions
- arxiv url: http://arxiv.org/abs/2506.12666v1
- Date: Sat, 14 Jun 2025 23:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.68113
- Title: LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions
- Title(参考訳): 生涯の社会的相互作用に対する言語エージェントの社会的知性の評価
- Authors: Hitesh Goel, Hao Zhu,
- Abstract要約: 本稿では,言語エージェントの総合評価を行うための新しいベンチマークLIFELONG-SOTOPIAを提案する。
私たちがテストするすべての言語モデルの目標達成と信頼性が、インタラクション全体を通じて低下していることに気付きました。
以上の結果から,生涯にわたる社会的相互作用による言語エージェントの社会的知性評価にはLIFELONG-SOTOPIAが有効であることが示唆された。
- 参考スコア(独自算出の注目度): 4.819825467587802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans engage in lifelong social interactions through interacting with different people under different scenarios for different social goals. This requires social intelligence to gather information through a long time span and use it to navigate various social contexts effectively. Whether AI systems are also capable of this is understudied in the existing research. In this paper, we present a novel benchmark, LIFELONG-SOTOPIA, to perform a comprehensive evaluation of language agents by simulating multi-episode interactions. In each episode, the language agents role-play characters to achieve their respective social goals in randomly sampled social tasks. With LIFELONG-SOTOPIA, we find that goal achievement and believability of all of the language models that we test decline through the whole interaction. Although using an advanced memory method improves the agents' performance, the best agents still achieve a significantly lower goal completion rate than humans on scenarios requiring an explicit understanding of interaction history. These findings show that we can use LIFELONG-SOTOPIA to evaluate the social intelligence of language agents over lifelong social interactions.
- Abstract(参考訳): 人間は、異なる社会的目標の異なるシナリオの下で異なる人々と対話することで、生涯にわたる社会的相互作用に従事します。
これにより、社会知性は長期にわたって情報を収集し、それを様々な社会的文脈を効果的にナビゲートするために使う必要がある。
AIシステムにもこの能力があるかどうかは、既存の研究で実証されている。
本稿では,多面的相互作用をシミュレートし,言語エージェントの包括的評価を行うための新しいベンチマークLIFELONG-SOTOPIAを提案する。
各エピソードにおいて、言語は、ランダムにサンプリングされた社会的タスクにおいて、それぞれの社会的目標を達成するためにロールプレイキャラクタを代理する。
LIFELONG-SOTOPIAでは、すべての言語モデルの目標達成と信頼性が、インタラクション全体を通じて低下していることが分かる。
高度なメモリ手法を用いることでエージェントのパフォーマンスが向上するが、最高のエージェントは対話履歴を明確に理解する必要のあるシナリオにおいて、人間よりもはるかに低い目標達成率を達成する。
以上の結果から,生涯にわたる社会的相互作用による言語エージェントの社会的知性評価にはLIFELONG-SOTOPIAが有効であることが示唆された。
関連論文リスト
- SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。