Fugu-MT 論文翻訳(概要): InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context

論文の概要: InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context

arxiv url: http://arxiv.org/abs/2406.12203v3
Date: Sun, 03 Nov 2024 16:15:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.79285
Title: InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context
Title（参考訳）: Interintent: 対話型ゲームコンテキストにおける意図理解によるLLMのソーシャルインテリジェンスの調査
Authors: Ziyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang, Jieyu Zhao,
Abstract要約: 大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。我々は,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価する新しい枠組みであるInterIntentを開発した。
参考スコア（独自算出の注目度）: 27.740204336800687
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated the potential to mimic human social intelligence. However, most studies focus on simplistic and static self-report or performance-based tests, which limits the depth and validity of the analysis. In this paper, we developed a novel framework, InterIntent, to assess LLMs' social intelligence by mapping their ability to understand and manage intentions in a game setting. We focus on four dimensions of social intelligence: situational awareness, self-regulation, self-awareness, and theory of mind. Each dimension is linked to a specific game task: intention selection, intention following, intention summarization, and intention guessing. Our findings indicate that while LLMs exhibit high proficiency in selecting intentions, achieving an accuracy of 88%, their ability to infer the intentions of others is significantly weaker, trailing human performance by 20%. Additionally, game performance correlates with intention understanding, highlighting the importance of the four components towards success in this game. These findings underline the crucial role of intention understanding in evaluating LLMs' social intelligence and highlight the potential of using social deduction games as a complex testbed to enhance LLM evaluation. InterIntent contributes a structured approach to bridging the evaluation gap in social intelligence within multiplayer games.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。しかし、ほとんどの研究は単純で静的な自己報告やパフォーマンスベースのテストに重点を置いており、分析の深さと妥当性を制限している。本稿では,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価するための新たなフレームワークであるInterIntentを開発した。我々は、状況認識、自己統制、自己認識、心の理論の4つの側面に焦点を当てる。各次元は、意図の選択、意図の追従、意図の要約、意図の推測といった特定のゲームタスクに関連付けられている。以上の結果から,LSMは選択意図に高い習熟度を示し,精度は88%であったが,他者の意図を推測する能力は著しく低下し,性能は20%向上した。さらに、ゲームパフォーマンスは意図的な理解と相関し、このゲームの成功に向けた4つのコンポーネントの重要性を強調している。これらの知見は, LLMの社会的知性を評価する上での意図的理解の重要な役割を明らかにし, LLM評価を高めるための複雑なテストベッドとしてソーシャル推論ゲームを使用することの可能性を強調した。 Interintentはマルチプレイヤーゲームにおけるソーシャルインテリジェンスの評価ギャップを埋めるための構造化されたアプローチに貢献している。

関連論文リスト

SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文参考訳（メタデータ） (2025-06-01T08:36:51Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-20T08:36:58Z)
Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective [22.30892836263764]
人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、興味深い疑問が浮かび上がっている。 LLMはToMとソーシャル化の機能の観点からどのように機能するか? EgoSocialArenaは,LLMのToMと社会化能力を評価するための新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-08T16:55:51Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
LLM Theory of Mind and Alignment: Opportunities and Risks [0.0]
大きな言語モデル (LLM) が心の理論 (ToM) を持つかどうかに注目が集まっている。本稿では,LLM ToMが人間:LLMの相互作用に現れる重要な領域を個人およびグループレベルで同定する。それは、潜在的な意味を幅広い範囲で明らかにし、将来の研究の最も急進的な領域を示唆している。
論文参考訳（メタデータ） (2024-05-13T19:52:16Z)
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文参考訳（メタデータ） (2024-03-13T17:17:48Z)
Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文参考訳（メタデータ） (2024-03-11T10:35:53Z)
PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文参考訳（メタデータ） (2024-02-19T18:00:30Z)
I Think, Therefore I am: Benchmarking Awareness of Large Language Models Using AwareBench [20.909504977779978]
大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。 LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。 13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
論文参考訳（メタデータ） (2024-01-31T14:41:23Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文参考訳（メタデータ） (2023-07-18T07:49:38Z)
Large Language Models Understand and Can be Enhanced by Emotional Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。 EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-07-14T00:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。