論文の概要: AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios
- arxiv url: http://arxiv.org/abs/2410.19346v1
- Date: Fri, 25 Oct 2024 07:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:07.445069
- Title: AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios
- Title(参考訳): AgentSense:インタラクティブシナリオによる言語エージェントのソーシャルインテリジェンスベンチマーク
- Authors: Xinyi Mou, Jingcong Liang, Jiayu Lin, Xinnong Zhang, Xiawei Liu, Shiyue Yang, Rong Ye, Lei Chen, Haoyu Kuang, Xuanjing Huang, Zhongyu Wei,
- Abstract要約: 本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
目的達成と暗黙的推論の両方を強調し,マルチターンインタラクションによるLCM駆動エージェントの評価を行った。
- 参考スコア(独自算出の注目度): 38.878966229688054
- License:
- Abstract: Large language models (LLMs) are increasingly leveraged to empower autonomous agents to simulate human beings in various fields of behavioral research. However, evaluating their capacity to navigate complex social interactions remains a challenge. Previous studies face limitations due to insufficient scenario diversity, complexity, and a single-perspective focus. To this end, we introduce AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios. Drawing on Dramaturgical Theory, AgentSense employs a bottom-up approach to create 1,225 diverse social scenarios constructed from extensive scripts. We evaluate LLM-driven agents through multi-turn interactions, emphasizing both goal completion and implicit reasoning. We analyze goals using ERG theory and conduct comprehensive experiments. Our findings highlight that LLMs struggle with goals in complex social scenarios, especially high-level growth needs, and even GPT-4o requires improvement in private information reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自律エージェントが様々な行動研究の分野で人間をシミュレートするために、ますます活用されている。
しかし、複雑な社会的相互作用をナビゲートする能力を評価することは依然として困難である。
これまでの研究では、シナリオの多様性、複雑さ、単一パースペクティブな焦点が不足しているため、制限に直面していた。
この目的のために,対話型シナリオを通じて,言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介した。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
目的達成と暗黙的推論の両方を強調し,マルチターンインタラクションによるLCM駆動エージェントの評価を行った。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
関連論文リスト
- IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.2810745411557316]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。
IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。
我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文 参考訳(メタデータ) (2025-01-19T14:58:35Z) - Questioning the Unknown: Optimising Multi-Agent Collaboration in Narrative-Driven Games [18.383262467079078]
We present Questum, a novel framework for Large Language Model (LLM) based agent in Murder Mystery Games (MMGs)。
MMGには、未定義の状態空間、中間報酬の欠如、継続的な言語領域における戦略的相互作用の必要性など、ユニークな課題がある。
Questumは、エージェント状態のセンサベース表現、情報ゲインによってガイドされる質問ターゲティングメカニズム、そして容疑者リストを洗練し、意思決定効率を高めるためのプルーニング戦略を通じて、これらの複雑さに対処する。
論文 参考訳(メタデータ) (2024-04-26T19:07:30Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - Exploring Large Language Model based Intelligent Agents: Definitions,
Methods, and Prospects [32.91556128291915]
本稿では, シングルエージェントおよびマルチエージェントシステムにおける知的エージェントの詳細な概要を提供するため, 現在の研究状況について調査する。
定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。
我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を思い浮かべて結論付ける。
論文 参考訳(メタデータ) (2024-01-07T09:08:24Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Towards Socially Intelligent Agents with Mental State Transition and
Human Utility [97.01430011496576]
対話エージェントに精神状態と実用性モデルを取り入れることを提案する。
ハイブリッド精神状態は、対話とイベント観察の両方から情報を抽出する。
ユーティリティモデルは、クラウドソースのソーシャルコモンセンスデータセットから人間の好みを学習するランキングモデルである。
論文 参考訳(メタデータ) (2021-03-12T00:06:51Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。