論文の概要: Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective
- arxiv url: http://arxiv.org/abs/2410.06195v1
- Date: Tue, 8 Oct 2024 16:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:41:07.215880
- Title: Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective
- Title(参考訳): 現実社会への参入! LLMの心の理論と社会化能力の第一の視点からの検証
- Authors: Guiyang Hou, Wenqi Zhang, Yongliang Shen, Zeqi Tan, Sihao Shen, Weiming Lu,
- Abstract要約: 人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、興味深い疑問が浮かび上がっている。
LLMはToMとソーシャル化の機能の観点からどのように機能するか?
EgoSocialArenaは,LLMのToMと社会化能力を評価するための新しいフレームワークである。
- 参考スコア(独自算出の注目度): 22.30892836263764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the social world, humans possess the capability to infer and reason about others mental states (such as emotions, beliefs, and intentions), known as the Theory of Mind (ToM). Simultaneously, humans own mental states evolve in response to social situations, a capability we refer to as socialization. Together, these capabilities form the foundation of human social interaction. In the era of artificial intelligence (AI), especially with the development of large language models (LLMs), we raise an intriguing question: How do LLMs perform in terms of ToM and socialization capabilities? And more broadly, can these AI models truly enter and navigate the real social world? Existing research evaluating LLMs ToM and socialization capabilities by positioning LLMs as passive observers from a third person perspective, rather than as active participants. However, compared to the third-person perspective, observing and understanding the world from an egocentric first person perspective is a natural approach for both humans and AI agents. The ToM and socialization capabilities of LLMs from a first person perspective, a crucial attribute for advancing embodied AI agents, remain unexplored. To answer the aforementioned questions and bridge the research gap, we introduce EgoSocialArena, a novel framework designed to evaluate and investigate the ToM and socialization capabilities of LLMs from a first person perspective. It encompasses two evaluation environments: static environment and interactive environment, with seven scenarios: Daily Life, Counterfactual, New World, Blackjack, Number Guessing, and Limit Texas Hold em, totaling 2,195 data entries. With EgoSocialArena, we have conducted a comprehensive evaluation of nine advanced LLMs and observed some key insights regarding the future development of LLMs as well as the capabilities levels of the most advanced LLMs currently available.
- Abstract(参考訳): 社会世界では、人間は心の理論(ToM)として知られる他の精神状態(感情、信念、意図など)を推論し、推論する能力を持っている。
同時に、人間の精神状態は社会的状況に応じて進化し、これは社会化と呼ばれる能力である。
これらの能力は、人間の社会的相互作用の基礎となる。
人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、私たちは興味深い疑問を提起する。
さらに広い範囲で、これらのAIモデルは現実の社会の世界に入り、ナビゲートできるのだろうか?
LLMをアクティブな参加者としてではなく、第三者の観点から受動的観察者として位置づけることにより、LLMのToMと社会化能力を評価する既存の研究である。
しかし、三人称視点と比較して、自我中心の第一人称視点から世界を観察し、理解することは、人間とAIエージェントの両方にとって自然なアプローチである。
LLMのToMと社会化能力は、インボディードAIエージェントを前進させる重要な属性である第一人者の視点からは未解明のままである。
上記の疑問に答え,研究ギャップを埋めるために,第1の視点からLLMのToMと社会化能力を評価し,調査するための新しいフレームワークであるEgoSocialArenaを紹介した。
静的環境とインタラクティブ環境という,7つのシナリオ – Daily Life, Counterfactual, New World, Blackjack, Number Guessing, Limit Texas Hold em – を含む。
我々は,EgoSocialArenaを用いて,9種類の先進LLMの総合的な評価を行い,LLMの今後の発展と,現在利用可能な最先進LLMの能力レベルについていくつかの重要な洞察を得た。
関連論文リスト
- Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context [27.740204336800687]
大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。
我々は,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価する新しい枠組みであるInterIntentを開発した。
論文 参考訳(メタデータ) (2024-06-18T02:02:15Z) - Ask LLMs Directly, "What shapes your bias?": Measuring Social Bias in Large Language Models [11.132360309354782]
社会的偏見は、様々な人口統計学的アイデンティティを対象とする社会的認識の蓄積によって形成される。
本研究では,社会的知覚を直感的に定量化し,大規模言語モデルにおける社会的バイアスを評価する指標を提案する。
論文 参考訳(メタデータ) (2024-06-06T13:32:09Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。
人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文 参考訳(メタデータ) (2024-03-11T10:35:53Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Influence of External Information on Large Language Models Mirrors
Social Cognitive Patterns [51.622612759892775]
社会的認知理論は、人々が他人を観察して知識を習得する方法を説明する。
近年,大規模言語モデル(LLM)の急速な発展を目撃している。
LLMは、AIエージェントとして、その認知と行動を形成する外部情報を観察することができる。
論文 参考訳(メタデータ) (2023-05-08T16:10:18Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - Social Neuro AI: Social Interaction as the "dark matter" of AI [0.0]
我々は、社会心理学と社会神経科学の実証結果と力学の枠組みが、よりインテリジェントな人工エージェントの開発にインスピレーションを与えることができると主張している。
論文 参考訳(メタデータ) (2021-12-31T13:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。