論文の概要: InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context
- arxiv url: http://arxiv.org/abs/2406.12203v1
- Date: Tue, 18 Jun 2024 02:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:08:33.418211
- Title: InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context
- Title(参考訳): Interintent: 対話型ゲームコンテキストにおける意図理解によるLLMのソーシャルインテリジェンスの調査
- Authors: Ziyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang, Jieyu Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。
我々は,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価する新しい枠組みであるInterIntentを開発した。
- 参考スコア(独自算出の注目度): 27.740204336800687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated the potential to mimic human social intelligence. However, most studies focus on simplistic and static self-report or performance-based tests, which limits the depth and validity of the analysis. In this paper, we developed a novel framework, InterIntent, to assess LLMs' social intelligence by mapping their ability to understand and manage intentions in a game setting. We focus on four dimensions of social intelligence: situational awareness, self-regulation, self-awareness, and theory of mind. Each dimension is linked to a specific game task: intention selection, intention following, intention summarization, and intention guessing. Our findings indicate that while LLMs exhibit high proficiency in selecting intentions, achieving an accuracy of 88\%, their ability to infer the intentions of others is significantly weaker, trailing human performance by 20\%. Additionally, game performance correlates with intention understanding, highlighting the importance of the four components towards success in this game. These findings underline the crucial role of intention understanding in evaluating LLMs' social intelligence and highlight the potential of using social deduction games as a complex testbed to enhance LLM evaluation. InterIntent contributes a structured approach to bridging the evaluation gap in social intelligence within multiplayer games.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。
しかし、ほとんどの研究は単純で静的な自己報告やパフォーマンスベースのテストに重点を置いており、分析の深さと妥当性を制限している。
本稿では,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価するための新たなフレームワークであるInterIntentを開発した。
我々は、状況認識、自己統制、自己認識、心の理論の4つの側面に焦点を当てる。
各次元は、意図の選択、意図の追従、意図の要約、意図の推測といった特定のゲームタスクに関連付けられている。
以上の結果から, LLMは意図の選択に高い習熟度を示し, 88%の精度を達成できる一方で, 他者の意図を推測する能力は著しく低下し, 人間のパフォーマンスを20パーセント追随することが明らかとなった。
さらに、ゲームパフォーマンスは意図的な理解と相関し、このゲームの成功に向けた4つのコンポーネントの重要性を強調している。
これらの知見は, LLMの社会的知性を評価する上での意図的理解の重要な役割を明らかにし, LLM評価を高めるための複雑なテストベッドとしてソーシャル推論ゲームを使用することの可能性を強調した。
Interintentはマルチプレイヤーゲームにおけるソーシャルインテリジェンスの評価ギャップを埋めるための構造化されたアプローチに貢献している。
関連論文リスト
- Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - LLM Theory of Mind and Alignment: Opportunities and Risks [0.0]
大きな言語モデル (LLM) が心の理論 (ToM) を持つかどうかに注目が集まっている。
本稿では,LLM ToMが人間:LLMの相互作用に現れる重要な領域を個人およびグループレベルで同定する。
それは、潜在的な意味を幅広い範囲で明らかにし、将来の研究の最も急進的な領域を示唆している。
論文 参考訳(メタデータ) (2024-05-13T19:52:16Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。
人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文 参考訳(メタデータ) (2024-03-11T10:35:53Z) - I Think, Therefore I am: Benchmarking Awareness of Large Language Models
Using AwareBench [20.909504977779978]
大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。
LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。
13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-01-31T14:41:23Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation
in Avalon Gameplay [57.202649879872624]
Avalonのゲームプレイにシームレスに適応する新しいフレームワークを提案する。
提案するフレームワークの中核は,エージェント間の効率的な通信と対話を可能にするマルチエージェントシステムである。
本研究は,適応的かつインテリジェントなエージェントを生成する上で,我々のフレームワークの有効性を示すものである。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。
しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。
そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文 参考訳(メタデータ) (2023-07-18T07:49:38Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。