Fugu-MT 論文翻訳(概要): Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective

論文の概要: Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective

arxiv url: http://arxiv.org/abs/2410.06195v1
Date: Tue, 8 Oct 2024 16:55:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 10:41:07.215880
Title: Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective
Title（参考訳）: 現実社会への参入! LLMの心の理論と社会化能力の第一の視点からの検証
Authors: Guiyang Hou, Wenqi Zhang, Yongliang Shen, Zeqi Tan, Sihao Shen, Weiming Lu,
Abstract要約: 人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、興味深い疑問が浮かび上がっている。 LLMはToMとソーシャル化の機能の観点からどのように機能するか? EgoSocialArenaは,LLMのToMと社会化能力を評価するための新しいフレームワークである。
参考スコア（独自算出の注目度）: 22.30892836263764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the social world, humans possess the capability to infer and reason about others mental states (such as emotions, beliefs, and intentions), known as the Theory of Mind (ToM). Simultaneously, humans own mental states evolve in response to social situations, a capability we refer to as socialization. Together, these capabilities form the foundation of human social interaction. In the era of artificial intelligence (AI), especially with the development of large language models (LLMs), we raise an intriguing question: How do LLMs perform in terms of ToM and socialization capabilities? And more broadly, can these AI models truly enter and navigate the real social world? Existing research evaluating LLMs ToM and socialization capabilities by positioning LLMs as passive observers from a third person perspective, rather than as active participants. However, compared to the third-person perspective, observing and understanding the world from an egocentric first person perspective is a natural approach for both humans and AI agents. The ToM and socialization capabilities of LLMs from a first person perspective, a crucial attribute for advancing embodied AI agents, remain unexplored. To answer the aforementioned questions and bridge the research gap, we introduce EgoSocialArena, a novel framework designed to evaluate and investigate the ToM and socialization capabilities of LLMs from a first person perspective. It encompasses two evaluation environments: static environment and interactive environment, with seven scenarios: Daily Life, Counterfactual, New World, Blackjack, Number Guessing, and Limit Texas Hold em, totaling 2,195 data entries. With EgoSocialArena, we have conducted a comprehensive evaluation of nine advanced LLMs and observed some key insights regarding the future development of LLMs as well as the capabilities levels of the most advanced LLMs currently available.
Abstract（参考訳）: 社会世界では、人間は心の理論(ToM)として知られる他の精神状態(感情、信念、意図など)を推論し、推論する能力を持っている。同時に、人間の精神状態は社会的状況に応じて進化し、これは社会化と呼ばれる能力である。これらの能力は、人間の社会的相互作用の基礎となる。人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、私たちは興味深い疑問を提起する。さらに広い範囲で、これらのAIモデルは現実の社会の世界に入り、ナビゲートできるのだろうか? LLMをアクティブな参加者としてではなく、第三者の観点から受動的観察者として位置づけることにより、LLMのToMと社会化能力を評価する既存の研究である。しかし、三人称視点と比較して、自我中心の第一人称視点から世界を観察し、理解することは、人間とAIエージェントの両方にとって自然なアプローチである。 LLMのToMと社会化能力は、インボディードAIエージェントを前進させる重要な属性である第一人者の視点からは未解明のままである。上記の疑問に答え,研究ギャップを埋めるために,第1の視点からLLMのToMと社会化能力を評価し,調査するための新しいフレームワークであるEgoSocialArenaを紹介した。静的環境とインタラクティブ環境という,7つのシナリオ – Daily Life, Counterfactual, New World, Blackjack, Number Guessing, Limit Texas Hold em – を含む。我々は,EgoSocialArenaを用いて,9種類の先進LLMの総合的な評価を行い,LLMの今後の発展と,現在利用可能な最先進LLMの能力レベルについていくつかの重要な洞察を得た。

関連論文リスト

EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs [33.35844258541633]
EgoExoBenchは、エゴセントリックなビデオ理解と推論のための最初のベンチマークである。セマンティックアライメント、パースペクティブアソシエーション、時間的推論という、11のサブタスクにまたがる7,300以上の質問応答ペアで構成されている。我々は、13の最先端MLLMを評価し、これらのモデルが単一視点のタスクに優れる一方で、視点間のセマンティクスの整合に苦慮し、視点を正確に関連付け、エゴ・エクソ・コンテキストにおける時間的ダイナミクスを推測する。
論文参考訳（メタデータ） (2025-07-24T12:14:49Z)
SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文参考訳（メタデータ） (2025-06-01T08:36:51Z)
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence [62.21106561772784]
時空間認識型階層型認知強化学習(TimeHC-RL)を導入し,大規模言語モデルの社会的知性を高める。実験の結果, 広く採用されているSystem 2 RL法と比較して, 提案したTimeHC-RL法の方が優れていることがわかった。 7Bのバックボーンモデルウィングが提供され、DeepSeek-R1やOpenAI-O3といった高度なモデルのパフォーマンスに匹敵する。
論文参考訳（メタデータ） (2025-05-30T12:01:06Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory [8.80864059602965]
大規模言語モデル(LLM)と人工知能(AI)の進歩は、大規模に計算社会科学研究の機会を提供する。我々の研究は、複雑な社会的関係が動的に形成され、時間とともに進化するシミュレーションエージェント・ソサイエティを導入している。我々は、この理論が仮定しているように、エージェントが秩序と安全保障と引き換えに絶対的な主権を放棄することで、残酷な「自然の状態」から逃れようとするかどうかを分析する。
論文参考訳（メタデータ） (2024-06-20T14:42:58Z)
InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context [27.740204336800687]
大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。我々は,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価する新しい枠組みであるInterIntentを開発した。
論文参考訳（メタデータ） (2024-06-18T02:02:15Z)
Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View [21.341128731357415]
大規模言語モデル(LLM)は、人間のバイアスを頻繁に含んでいるデータのために幻覚に直面することが示されている。幻覚特性を利用してLLMエージェントのソーシャルインテリジェンスを評価し,強化するオープンエンドマルチLLMエージェントフレームワークであるCogMirを提案する。
論文参考訳（メタデータ） (2024-05-23T16:13:33Z)
LLM Theory of Mind and Alignment: Opportunities and Risks [0.0]
大きな言語モデル (LLM) が心の理論 (ToM) を持つかどうかに注目が集まっている。本稿では,LLM ToMが人間:LLMの相互作用に現れる重要な領域を個人およびグループレベルで同定する。それは、潜在的な意味を幅広い範囲で明らかにし、将来の研究の最も急進的な領域を示唆している。
論文参考訳（メタデータ） (2024-05-13T19:52:16Z)
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文参考訳（メタデータ） (2024-03-13T17:17:48Z)
Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文参考訳（メタデータ） (2024-03-11T10:35:53Z)
Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs [24.613282867543244]
大規模言語モデル(LLM)はより豊かな社会シミュレーションを可能にし、様々な社会現象の研究を可能にしている。最近の研究は、これらのシミュレーションについて、人間とAIエージェントが現実世界で関与する不完全で情報非対称な相互作用と、基本的には異なっています。
論文参考訳（メタデータ） (2024-03-08T03:49:17Z)
Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文参考訳（メタデータ） (2023-12-23T08:46:53Z)
SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (2023-10-18T02:27:01Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Influence of External Information on Large Language Models Mirrors Social Cognitive Patterns [51.622612759892775]
社会的認知理論は、人々が他人を観察して知識を習得する方法を説明する。近年,大規模言語モデル(LLM)の急速な発展を目撃している。 LLMは、AIエージェントとして、その認知と行動を形成する外部情報を観察することができる。
論文参考訳（メタデータ） (2023-05-08T16:10:18Z)
Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文参考訳（メタデータ） (2022-10-24T14:58:58Z)
Social Neuro AI: Social Interaction as the "dark matter" of AI [0.0]
我々は、社会心理学と社会神経科学の実証結果と力学の枠組みが、よりインテリジェントな人工エージェントの開発にインスピレーションを与えることができると主張している。
論文参考訳（メタデータ） (2021-12-31T13:41:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。