論文の概要: How Social is It? A Benchmark for LLMs' Capabilities in Multi-user Multi-turn Social Agent Tasks
- arxiv url: http://arxiv.org/abs/2505.04628v1
- Date: Fri, 04 Apr 2025 08:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-11 11:26:45.205418
- Title: How Social is It? A Benchmark for LLMs' Capabilities in Multi-user Multi-turn Social Agent Tasks
- Title(参考訳): ソーシャルとは何か : マルチユーザマルチターン型ソーシャルエージェントタスクにおけるLCMの能力評価
- Authors: Yusen Wu, Junwu Xiong, Xiaotie Deng,
- Abstract要約: 大規模言語モデル(LLM)は、マルチユーザ、マルチターンソーシャルエージェントタスクにおいて役割を果たす。
我々は LLM の社会的能力を評価するために, 新たなベンチマーク "How Social Is It" (以下 HSII と呼ぶ) を提案する。
HSIIは、フォーマット解析、ターゲット選択、ターゲット切替会話、安定した会話の4段階から構成され、LLMのコミュニケーションとタスク完了能力を総合的に評価する。
- 参考スコア(独自算出の注目度): 6.487500253901779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expanding the application of large language models (LLMs) to societal life, instead of primary function only as auxiliary assistants to communicate with only one person at a time, necessitates LLMs' capabilities to independently play roles in multi-user, multi-turn social agent tasks within complex social settings. However, currently the capability has not been systematically measured with available benchmarks. To address this gap, we first introduce an agent task leveling framework grounded in sociological principles. Concurrently, we propose a novel benchmark, How Social Is It (we call it HSII below), designed to assess LLM's social capabilities in comprehensive social agents tasks and benchmark representative models. HSII comprises four stages: format parsing, target selection, target switching conversation, and stable conversation, which collectively evaluate the communication and task completion capabilities of LLMs within realistic social interaction scenarios dataset, HSII-Dataset. The dataset is derived step by step from news dataset. We perform an ablation study by doing clustering to the dataset. Additionally, we investigate the impact of chain of thought (COT) method on enhancing LLMs' social performance. Since COT cost more computation, we further introduce a new statistical metric, COT-complexity, to quantify the efficiency of certain LLMs with COTs for specific social tasks and strike a better trade-off between measurement of correctness and efficiency. Various results of our experiments demonstrate that our benchmark is well-suited for evaluating social skills in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)を社会生活に適用するためには、一人ひとりの人間とコミュニケーションする補助アシスタントとしてのみ機能するのではなく、複雑な社会設定の中で、マルチユーザでマルチターンのソーシャルエージェントタスクにおいて、LLMが独立して役割を演じる能力が必要である。
しかし、現在利用可能なベンチマークでは、その能力は体系的に測定されていない。
このギャップに対処するために、まず、社会学的原理に基づくエージェント・タスク・レベリング・フレームワークを導入する。
同時に、総合的なソーシャルエージェントタスクとベンチマーク代表モデルにおけるLLMの社会的能力を評価するために設計された新しいベンチマーク、How Social Is It (以下、HSIIと呼ぶ)を提案する。
HSIIは、フォーマット解析、ターゲット選択、ターゲット切替会話、安定した会話の4段階から構成され、現実的なソーシャルインタラクションシナリオデータセットであるHSII-Dataset内のLLMのコミュニケーションとタスク完了能力を総合的に評価する。
データセットは、ニュースデータセットからステップバイステップで導き出される。
データセットにクラスタリングを行うことで、アブレーションスタディを実行します。
さらに,思考連鎖法(COT)がLLMの社会的パフォーマンス向上に与える影響について検討した。
また,COT の計算コストが高くなるため,特定の社会的タスクに対する COT を用いて特定の LLM の効率を定量化し,精度と効率の両立を図るため,新しい統計量である COT 複雑度を導入する。
実験の結果, LLMにおける社会的スキルの評価には, ベンチマークが適していることが示された。
関連論文リスト
- Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - MetaAgents: Simulating Interactions of Human Behaviors for LLM-based
Task-oriented Coordination via Collaborative Generative Agents [27.911816995891726]
我々は,一貫した行動パターンと課題解決能力を備えたLLMベースのエージェントを,協調的生成エージェントとして導入する。
本研究では,人間のような推論能力と専門的スキルを備えた協調生成エージェントを実現する新しい枠組みを提案する。
我々の研究は、タスク指向の社会シミュレーションにおける大規模言語モデルの役割と進化に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-10-10T10:17:58Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。