Fugu-MT 論文翻訳(概要): AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios

論文の概要: AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios

arxiv url: http://arxiv.org/abs/2410.19346v2
Date: Sat, 23 Nov 2024 08:23:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.3053
Title: AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios
Title（参考訳）: AgentSense:インタラクティブシナリオによる言語エージェントのソーシャルインテリジェンスベンチマーク
Authors: Xinyi Mou, Jingcong Liang, Jiayu Lin, Xinnong Zhang, Xiawei Liu, Shiyue Yang, Rong Ye, Lei Chen, Haoyu Kuang, Xuanjing Huang, Zhongyu Wei,
Abstract要約: 本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。我々はERG理論を用いて目標を分析し、包括的な実験を行う。以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
参考スコア（独自算出の注目度）: 38.878966229688054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly leveraged to empower autonomous agents to simulate human beings in various fields of behavioral research. However, evaluating their capacity to navigate complex social interactions remains a challenge. Previous studies face limitations due to insufficient scenario diversity, complexity, and a single-perspective focus. To this end, we introduce AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios. Drawing on Dramaturgical Theory, AgentSense employs a bottom-up approach to create 1,225 diverse social scenarios constructed from extensive scripts. We evaluate LLM-driven agents through multi-turn interactions, emphasizing both goal completion and implicit reasoning. We analyze goals using ERG theory and conduct comprehensive experiments. Our findings highlight that LLMs struggle with goals in complex social scenarios, especially high-level growth needs, and even GPT-4o requires improvement in private information reasoning. Code and data are available at \url{https://github.com/ljcleo/agent_sense}.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自律エージェントが様々な行動研究の分野で人間をシミュレートするために、ますます活用されている。しかし、複雑な社会的相互作用をナビゲートする能力を評価することは依然として困難である。これまでの研究では、シナリオの多様性、複雑さ、単一パースペクティブな焦点が不足しているため、制限に直面していた。この目的のために,対話型シナリオを通じて,言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介した。ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。目的達成と暗黙的推論の両方を強調し,マルチターンインタラクションによるLCM駆動エージェントの評価を行った。我々はERG理論を用いて目標を分析し、包括的な実験を行う。以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。コードとデータは \url{https://github.com/ljcleo/agent_sense} で公開されている。

関連論文リスト

Games Agents Play: Towards Transactional Analysis in LLM-based Multi-Agent Systems [0.0]
トランザクション分析(TA)の原則をマルチエージェントシステムに組み込むアプローチであるTrans-ACTを導入する。 Trans-ACTは、親、大人、子エゴの状態をエージェントの認知アーキテクチャに統合する。我々の実験シミュレーションはStupidゲームシナリオを再現し、認知とTAの原理に根ざしたエージェントがより深く文脈に応じた相互作用を生み出すことを示した。
論文参考訳（メタデータ） (2025-07-28T21:46:21Z)
LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions [4.819825467587802]
本稿では,言語エージェントの総合評価を行うための新しいベンチマークLIFELONG-SOTOPIAを提案する。私たちがテストするすべての言語モデルの目標達成と信頼性が、インタラクション全体を通じて低下していることに気付きました。以上の結果から,生涯にわたる社会的相互作用による言語エージェントの社会的知性評価にはLIFELONG-SOTOPIAが有効であることが示唆された。
論文参考訳（メタデータ） (2025-06-14T23:57:54Z)
The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。 DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文参考訳（メタデータ） (2025-05-19T10:01:35Z)
A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文参考訳（メタデータ） (2025-04-07T21:01:25Z)
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文参考訳（メタデータ） (2025-04-03T14:21:33Z)
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.2810745411557316]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。 IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文参考訳（メタデータ） (2025-01-19T14:58:35Z)
Exploring Autonomous Agents through the Lens of Large Language Models: A Review [0.0]
大規模言語モデル(LLM)は人工知能を変革し、自律エージェントがさまざまなドメインで多様なタスクを実行できるようにしている。彼らは多目的性、人的価値のアライメント、幻覚、評価といった課題に直面している。 AgentBench、WebArena、ToolLLMといった評価プラットフォームは、複雑なシナリオでこれらのエージェントを評価する堅牢な方法を提供します。
論文参考訳（メタデータ） (2024-04-05T22:59:02Z)
SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。 SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文参考訳（メタデータ） (2024-03-20T15:38:36Z)
Exploring Large Language Model based Intelligent Agents: Definitions, Methods, and Prospects [32.91556128291915]
本稿では, シングルエージェントおよびマルチエージェントシステムにおける知的エージェントの詳細な概要を提供するため, 現在の研究状況について調査する。定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を思い浮かべて結論付ける。
論文参考訳（メタデータ） (2024-01-07T09:08:24Z)
SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (2023-10-18T02:27:01Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文参考訳（メタデータ） (2021-07-02T10:39:18Z)
Towards Socially Intelligent Agents with Mental State Transition and Human Utility [97.01430011496576]
対話エージェントに精神状態と実用性モデルを取り入れることを提案する。ハイブリッド精神状態は、対話とイベント観察の両方から情報を抽出する。ユーティリティモデルは、クラウドソースのソーシャルコモンセンスデータセットから人間の好みを学習するランキングモデルである。
論文参考訳（メタデータ） (2021-03-12T00:06:51Z)
Can You be More Social? Injecting Politeness and Positivity into Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文参考訳（メタデータ） (2020-12-29T08:22:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。