論文の概要: Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective
- arxiv url: http://arxiv.org/abs/2410.06195v1
- Date: Tue, 8 Oct 2024 16:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:41:07.215880
- Title: Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective
- Title(参考訳): 現実社会への参入! LLMの心の理論と社会化能力の第一の視点からの検証
- Authors: Guiyang Hou, Wenqi Zhang, Yongliang Shen, Zeqi Tan, Sihao Shen, Weiming Lu,
- Abstract要約: 人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、興味深い疑問が浮かび上がっている。
LLMはToMとソーシャル化の機能の観点からどのように機能するか?
EgoSocialArenaは,LLMのToMと社会化能力を評価するための新しいフレームワークである。
- 参考スコア(独自算出の注目度): 22.30892836263764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the social world, humans possess the capability to infer and reason about others mental states (such as emotions, beliefs, and intentions), known as the Theory of Mind (ToM). Simultaneously, humans own mental states evolve in response to social situations, a capability we refer to as socialization. Together, these capabilities form the foundation of human social interaction. In the era of artificial intelligence (AI), especially with the development of large language models (LLMs), we raise an intriguing question: How do LLMs perform in terms of ToM and socialization capabilities? And more broadly, can these AI models truly enter and navigate the real social world? Existing research evaluating LLMs ToM and socialization capabilities by positioning LLMs as passive observers from a third person perspective, rather than as active participants. However, compared to the third-person perspective, observing and understanding the world from an egocentric first person perspective is a natural approach for both humans and AI agents. The ToM and socialization capabilities of LLMs from a first person perspective, a crucial attribute for advancing embodied AI agents, remain unexplored. To answer the aforementioned questions and bridge the research gap, we introduce EgoSocialArena, a novel framework designed to evaluate and investigate the ToM and socialization capabilities of LLMs from a first person perspective. It encompasses two evaluation environments: static environment and interactive environment, with seven scenarios: Daily Life, Counterfactual, New World, Blackjack, Number Guessing, and Limit Texas Hold em, totaling 2,195 data entries. With EgoSocialArena, we have conducted a comprehensive evaluation of nine advanced LLMs and observed some key insights regarding the future development of LLMs as well as the capabilities levels of the most advanced LLMs currently available.
- Abstract(参考訳): 社会世界では、人間は心の理論(ToM)として知られる他の精神状態(感情、信念、意図など)を推論し、推論する能力を持っている。
同時に、人間の精神状態は社会的状況に応じて進化し、これは社会化と呼ばれる能力である。
これらの能力は、人間の社会的相互作用の基礎となる。
人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、私たちは興味深い疑問を提起する。
さらに広い範囲で、これらのAIモデルは現実の社会の世界に入り、ナビゲートできるのだろうか?
LLMをアクティブな参加者としてではなく、第三者の観点から受動的観察者として位置づけることにより、LLMのToMと社会化能力を評価する既存の研究である。
しかし、三人称視点と比較して、自我中心の第一人称視点から世界を観察し、理解することは、人間とAIエージェントの両方にとって自然なアプローチである。
LLMのToMと社会化能力は、インボディードAIエージェントを前進させる重要な属性である第一人者の視点からは未解明のままである。
上記の疑問に答え,研究ギャップを埋めるために,第1の視点からLLMのToMと社会化能力を評価し,調査するための新しいフレームワークであるEgoSocialArenaを紹介した。
静的環境とインタラクティブ環境という,7つのシナリオ – Daily Life, Counterfactual, New World, Blackjack, Number Guessing, Limit Texas Hold em – を含む。
我々は,EgoSocialArenaを用いて,9種類の先進LLMの総合的な評価を行い,LLMの今後の発展と,現在利用可能な最先進LLMの能力レベルについていくつかの重要な洞察を得た。
関連論文リスト
- Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory [8.80864059602965]
大規模言語モデル(LLM)と人工知能(AI)の進歩は、大規模に計算社会科学研究の機会を提供する。
我々の研究は、複雑な社会的関係が動的に形成され、時間とともに進化するシミュレーションエージェント・ソサイエティを導入している。
我々は、この理論が仮定しているように、エージェントが秩序と安全保障と引き換えに絶対的な主権を放棄することで、残酷な「自然の状態」から逃れようとするかどうかを分析する。
論文 参考訳(メタデータ) (2024-06-20T14:42:58Z) - Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View [21.341128731357415]
大規模言語モデル(LLM)は、人間のバイアスを頻繁に含んでいるデータのために幻覚に直面することが示されている。
幻覚特性を利用してLLMエージェントのソーシャルインテリジェンスを評価し,強化するオープンエンドマルチLLMエージェントフレームワークであるCogMirを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:13:33Z) - LLM Theory of Mind and Alignment: Opportunities and Risks [0.0]
大きな言語モデル (LLM) が心の理論 (ToM) を持つかどうかに注目が集まっている。
本稿では,LLM ToMが人間:LLMの相互作用に現れる重要な領域を個人およびグループレベルで同定する。
それは、潜在的な意味を幅広い範囲で明らかにし、将来の研究の最も急進的な領域を示唆している。
論文 参考訳(メタデータ) (2024-05-13T19:52:16Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。
人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文 参考訳(メタデータ) (2024-03-11T10:35:53Z) - Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs [24.613282867543244]
大規模言語モデル(LLM)はより豊かな社会シミュレーションを可能にし、様々な社会現象の研究を可能にしている。
最近の研究は、これらのシミュレーションについて、人間とAIエージェントが現実世界で関与する不完全で情報非対称な相互作用と、基本的には異なっています。
論文 参考訳(メタデータ) (2024-03-08T03:49:17Z) - Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。
最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。
発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文 参考訳(メタデータ) (2023-12-23T08:46:53Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。