論文の概要: LLMs achieve adult human performance on higher-order theory of mind tasks
- arxiv url: http://arxiv.org/abs/2405.18870v2
- Date: Fri, 31 May 2024 12:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:54:00.298792
- Title: LLMs achieve adult human performance on higher-order theory of mind tasks
- Title(参考訳): LLMはマインドタスクの高次理論上での成人人間のパフォーマンスを達成する
- Authors: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar,
- Abstract要約: 本稿では,手書きテストスイートであるMulti-Order Theory of Mind Q&Aを導入することで,先行作業の基盤となる。
5つの大きな言語モデルの性能を、新しく集まった成人のベンチマークと比較する。
We found that GPT-4 and Flan-PaLM reach to adult-level and near adult-level performance on ToM task。
- 参考スコア(独自算出の注目度): 0.8158007610542786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) が高次心の理論 (ToM) をいかに発展させたかを検討する。
本稿では、手書きテストスイートであるMulti-Order Theory of Mind Q&Aを導入し、5つのLCMのパフォーマンスと、新たに集まった成人のベンチマークを比較することによって、以前の作業の上に構築する。
GPT-4とFlan-PaLMは、ToMタスク全体において、成人レベルおよびほぼ成人レベルに到達し、GPT-4は6次推定で成人レベルを超えることが判明した。
以上の結果から,ToM能力を実現するためのモデルサイズと微調整の間には相互作用があることが示唆された。
高次ToMが幅広い協調的かつ競争的な人間の行動に果たす役割を考えると、これらの発見はユーザ向けLLMアプリケーションに重大な影響を及ぼす。
関連論文リスト
- The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Theory of Mind in Large Language Models: Examining Performance of 11
State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests [1.099532646524593]
我々は、心の理論(ToM)に関連する能力に基づいて、11のベースおよび命令調整型大言語モデル(LLM)をテストする。
また, GPT ファミリーの命令調整 LLM は, 他のモデルよりも優れており,子供もよく見られる。
我々は,言語とToMの相互接続進化と開発が,命令チューニングがもたらす意味を説明するのに役立つことを示唆している。
論文 参考訳(メタデータ) (2023-10-31T09:55:07Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks
for Exploring Theory of Mind [4.450536872346658]
ToMChallengesは,Sally-Anne と Smarties のテストに基づいて,多種多様なタスクを用いて,心の理論を総合的に評価するためのデータセットである。
評価結果と誤差分析により,LLMはプロンプトやタスク間で不整合な挙動を示す。
論文 参考訳(メタデータ) (2023-05-24T11:54:07Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - What's the Meaning of Superhuman Performance in Today's NLU? [145.75798804940766]
我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。
より公平で透過的なベンチマークのためのレコメンデーションを提供します。
論文 参考訳(メタデータ) (2023-05-15T07:48:31Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。