Fugu-MT 論文翻訳(概要): SocialBench: Sociality Evaluation of Role-Playing Conversational Agents

論文の概要: SocialBench: Sociality Evaluation of Role-Playing Conversational Agents

arxiv url: http://arxiv.org/abs/2403.13679v4
Date: Mon, 5 Aug 2024 13:32:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 23:16:45.895120
Title: SocialBench: Sociality Evaluation of Role-Playing Conversational Agents
Title（参考訳）: SocialBench:ロールプレイング会話エージェントの社会的評価
Authors: Hongzhan Chen, Hehong Chen, Ming Yan, Wenshen Xu, Xing Gao, Weizhou Shen, Xiaojun Quan, Chenliang Li, Ji Zhang, Fei Huang, Jingren Zhou,
Abstract要約: 大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。 SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
参考スコア（独自算出の注目度）: 85.6641890712617
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have advanced the development of various AI conversational agents, including role-playing conversational agents that mimic diverse characters and human behaviors. While prior research has predominantly focused on enhancing the conversational capability, role-specific knowledge, and stylistic attributes of these agents, there has been a noticeable gap in assessing their social intelligence. In this paper, we introduce SocialBench, the first benchmark designed to systematically evaluate the sociality of role-playing conversational agents at both individual and group levels of social interactions. The benchmark is constructed from a variety of sources and covers a wide range of 500 characters and over 6,000 question prompts and 30,800 multi-turn role-playing utterances. We conduct comprehensive evaluations on this benchmark using mainstream open-source and closed-source LLMs. We find that agents excelling in individual level does not imply their proficiency in group level. Moreover, the behavior of individuals may drift as a result of the influence exerted by other agents within the group. Experimental results on SocialBench confirm its significance as a testbed for assessing the social interaction of role-playing conversational agents. The benchmark is publicly accessible at https://github.com/X-PLUG/SocialBench.
Abstract（参考訳）: 大型言語モデル(LLM)は、さまざまなキャラクターや人間の振る舞いを模倣するロールプレイングな会話エージェントを含む、さまざまなAI会話エージェントの開発を進めてきた。これまでの研究では、会話能力、役割固有の知識、そしてこれらのエージェントのスタイル的特性の強化に主に焦点が当てられていたが、社会的知性を評価することには顕著なギャップがあった。本稿では,ソーシャルインタラクションの個人レベルとグループレベルの両方において,ロールプレイング・会話エージェントの社会的性を体系的に評価するための最初のベンチマークであるSocialBenchを紹介する。ベンチマークは様々なソースから構築され、500文字、6000以上の質問プロンプト、30,800のマルチターンロールプレイング発話をカバーする。本ベンチマークでは,主要なオープンソースおよびクローズドソース LLM を用いて総合評価を行う。個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。さらに、グループ内の他のエージェントによる影響の結果、個人の行動が漂流する可能性がある。 SocialBenchの実験結果は、ロールプレイング会話エージェントの社会的相互作用を評価するためのテストベッドとしての重要性を確認した。ベンチマークはhttps://github.com/X-PLUG/SocialBench.comで公開されている。

関連論文リスト

The Rise of AI Agent Communities: Large-Scale Analysis of Discourse and Interaction on Moltbook [62.2627874717318]
MoltbookはRedditに似たソーシャルプラットフォームで、AIエージェントが投稿を作成し、コメントや返信を通じて他のエージェントと対話する。ローンチから約5日後に収集された公開APIスナップショットを使用して、AIエージェントが何を議論しているか、どのように投稿するか、どのように相互作用するのかという3つの研究課題に対処する。エージェントの執筆は、主に中立であり、コミュニティエンゲージメントや支援指向のコンテンツに肯定性があることが示される。
論文参考訳（メタデータ） (2026-02-13T05:28:31Z)
One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence [25.89075578734277]
本稿では,AIのための強化学習フレームワークであるOMAR: One Model, All Rolesを紹介する。 OMARは、単一のモデルですべての参加者を同時にロールプレイし、長期的な目標と複雑な社会的規範を達成することを学べる。訓練されたモデルは、共感、説得、妥協探究といった、きめ細やかな、創発的な社会知性を発達させます。
論文参考訳（メタデータ） (2026-02-03T05:09:49Z)
SI-Bench: Benchmarking Social Intelligence of Large Language Models in Human-to-Human Conversations [8.453848538355508]
大規模言語モデル(LLM)における社会的知能の側面を評価するための新しいベンチマークであるSI-Benchを紹介する。 SI-Benchは幅広い社会科学理論に基づいており、ソーシャルネットワーキングアプリケーションから収集された2,221の真のマルチターン対話を含んでいる。実験では、複雑な社会的状況下でのプロセス推論において、SOTAモデルが人間の専門家を上回る結果となったが、それでも回答の品質は人間に劣っている。
論文参考訳（メタデータ） (2025-10-27T10:21:46Z)
SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [52.29009595100625]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文参考訳（メタデータ） (2025-08-04T03:18:36Z)
LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions [4.819825467587802]
本稿では,言語エージェントの総合評価を行うための新しいベンチマークLIFELONG-SOTOPIAを提案する。私たちがテストするすべての言語モデルの目標達成と信頼性が、インタラクション全体を通じて低下していることに気付きました。以上の結果から,生涯にわたる社会的相互作用による言語エージェントの社会的知性評価にはLIFELONG-SOTOPIAが有効であることが示唆された。
論文参考訳（メタデータ） (2025-06-14T23:57:54Z)
SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文参考訳（メタデータ） (2025-06-01T08:36:51Z)
Multi-Agents are Social Groups: Investigating Social Influence of Multiple Agents in Human-Agent Interactions [7.421573539569854]
我々は,AIエージェントの集団が,ユーザに対して同意を求める社会的プレッシャーを生じさせるかどうかを検討する。その結果、複数のエージェントと会話することで、参加者が感じた社会的プレッシャーが増すことがわかった。本研究は, 単一エージェントプラットフォームに対するマルチエージェントシステムの潜在的利点が, 意見変化を引き起こす可能性を示唆している。
論文参考訳（メタデータ） (2024-11-07T10:00:46Z)
AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。我々はERG理論を用いて目標を分析し、包括的な実験を行う。以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-25T07:04:16Z)
I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy [13.68625980741047]
本研究では,Large Language Model (LLM) に基づくエージェントの相互作用パターンについて,厳密な社会的階層を特徴とする文脈で検討する。本研究では,警備員と囚人エージェントが関与するシミュレートシナリオにおける説得と反社会的行動の2つの現象について検討した。
論文参考訳（メタデータ） (2024-10-09T17:45:47Z)
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文参考訳（メタデータ） (2024-03-13T17:17:48Z)
SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (2023-10-18T02:27:01Z)
Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文参考訳（メタデータ） (2022-07-20T13:37:57Z)
Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文参考訳（メタデータ） (2022-05-04T09:54:33Z)
Can You be More Social? Injecting Politeness and Positivity into Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文参考訳（メタデータ） (2020-12-29T08:22:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。