論文の概要: RoleInteract: Evaluating the Social Interaction of Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2403.13679v1
- Date: Wed, 20 Mar 2024 15:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:28:26.780607
- Title: RoleInteract: Evaluating the Social Interaction of Role-Playing Agents
- Title(参考訳): Role Interact:ロールプレイングエージェントの社会的相互作用の評価
- Authors: Hongzhan Chen, Hehong Chen, Ming Yan, Wenshen Xu, Xing Gao, Weizhou Shen, Xiaojun Quan, Chenliang Li, Ji Zhang, Fei Huang, Jingren Zhou,
- Abstract要約: 社会的相互作用の個人レベルとグループレベルの両方において、ロールプレイング・会話エージェントの社会的性を評価するために設計された最初のベンチマークを紹介する。
ベンチマークはさまざまなソースから構築され、500文字以上と6000以上の質問プロンプトをカバーする。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
- 参考スコア(独自算出の注目度): 85.6641890712617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have advanced the development of various AI conversational agents, including role-playing conversational agents that mimic diverse characters and human behaviors. While prior research has predominantly focused on enhancing the conversational capability, role-specific knowledge, and stylistic attributes of these agents, there has been a noticeable gap in assessing their social intelligence. In this paper, we introduce RoleInteract, the first benchmark designed to systematically evaluate the sociality of role-playing conversational agents at both individual and group levels of social interactions. The benchmark is constructed from a variety of sources and covers a wide range of 500 characters and over 6,000 question prompts and 30,800 multi-turn role-playing utterances. We conduct comprehensive evaluations on this benchmark using mainstream open-source and closed-source LLMs. We find that agents excelling in individual level does not imply their proficiency in group level. Moreover, the behavior of individuals may drift as a result of the influence exerted by other agents within the group. Experimental results on RoleInteract confirm its significance as a testbed for assessing the social interaction of role-playing conversational agents. The benchmark is publicly accessible at https://github.com/X-PLUG/RoleInteract.
- Abstract(参考訳): 大型言語モデル(LLM)は、さまざまなキャラクターや人間の振る舞いを模倣するロールプレイングな会話エージェントを含む、さまざまなAI会話エージェントの開発を進めてきた。
これまでの研究では、会話能力、役割固有の知識、そしてこれらのエージェントのスタイル的特性の強化に主に焦点が当てられていたが、社会的知性を評価することには顕著なギャップがあった。
本稿では,ロールプレイング対話エージェントのソーシャル性を,個人レベルとグループレベルで体系的に評価するための最初のベンチマークであるRoleInteractを紹介する。
ベンチマークは様々なソースから構築され、500文字、6000以上の質問プロンプト、30,800のマルチターンロールプレイング発話をカバーする。
本ベンチマークでは,主要なオープンソースおよびクローズドソース LLM を用いて総合評価を行う。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
さらに、グループ内の他のエージェントによる影響の結果、個人の行動が漂流する可能性がある。
RoleInteractの実験結果から、ロールプレイング会話エージェントの社会的相互作用を評価するテストベッドとしての重要性が確認された。
ベンチマークはhttps://github.com/X-PLUG/RoleInteract.comで公開されている。
関連論文リスト
- Multi-Agents are Social Groups: Investigating Social Influence of Multiple Agents in Human-Agent Interactions [7.421573539569854]
我々は,AIエージェントの集団が,ユーザに対して同意を求める社会的プレッシャーを生じさせるかどうかを検討する。
その結果、複数のエージェントと会話することで、参加者が感じた社会的プレッシャーが増すことがわかった。
本研究は, 単一エージェントプラットフォームに対するマルチエージェントシステムの潜在的利点が, 意見変化を引き起こす可能性を示唆している。
論文 参考訳(メタデータ) (2024-11-07T10:00:46Z) - AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
目的達成と暗黙的推論の両方を強調し,マルチターンインタラクションによるLCM駆動エージェントの評価を行った。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy [13.68625980741047]
本研究では,Large Language Model (LLM) に基づくエージェントの相互作用パターンについて,厳密な社会的階層を特徴とする文脈で検討する。
本研究では,警備員と囚人エージェントが関与するシミュレートシナリオにおける説得と反社会的行動の2つの現象について検討した。
論文 参考訳(メタデータ) (2024-10-09T17:45:47Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。