論文の概要: Theory of Mind May Have Spontaneously Emerged in Large Language Models
- arxiv url: http://arxiv.org/abs/2302.02083v1
- Date: Sat, 4 Feb 2023 03:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:23:33.417887
- Title: Theory of Mind May Have Spontaneously Emerged in Large Language Models
- Title(参考訳): 心の理論は、大きな言語モデルで自然発生的に現れたかもしれない
- Authors: Michal Kosinski
- Abstract要約: 心の理論 (ToM) は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。
以上の結果から,2022年以前のモデルでは,ToM課題の解決が事実上不可能であることが示唆された。
これらのことから,ToMライクな能力は言語モデルの言語能力向上の副産物として自然に現れる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.09518285745183248
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Theory of mind (ToM), or the ability to impute unobservable mental states to
others, is central to human social interactions, communication, empathy,
self-consciousness, and morality. We administer classic false-belief tasks,
widely used to test ToM in humans, to several language models, without any
examples or pre-training. Our results show that models published before 2022
show virtually no ability to solve ToM tasks. Yet, the January 2022 version of
GPT-3 (davinci-002) solved 70% of ToM tasks, a performance comparable with that
of seven-year-old children. Moreover, its November 2022 version (davinci-003),
solved 93% of ToM tasks, a performance comparable with that of nine-year-old
children. These findings suggest that ToM-like ability (thus far considered to
be uniquely human) may have spontaneously emerged as a byproduct of language
models' improving language skills.
- Abstract(参考訳): 心の理論、または他人に観察不能な精神状態をもたらす能力は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。
人間のToMテストに広く用いられている古典的偽理解タスクを,事例や事前学習を伴わずに,いくつかの言語モデルに管理する。
その結果,2022年以前のモデルでは,ToMタスクを解く能力がほとんどないことがわかった。
しかし、2022年1月のGPT-3(davinci-002)では、ToMタスクの70%が解決された。
さらに、2022年11月版(davinci-003)では、ToMタスクの93%が解決された。
これらの結果から,ToM様の能力は言語モデルの言語能力向上の副産物として自然に出現した可能性が示唆された。
関連論文リスト
- Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,新しいマルチタスク空間評価データセットを提案する。
データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含む。
この研究は、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
論文 参考訳(メタデータ) (2024-08-26T17:25:16Z) - Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Boosting Theory-of-Mind Performance in Large Language Models via
Prompting [2.538209532048867]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。
ToM理解の改善における文脈内学習の有効性を検討した。
論文 参考訳(メタデータ) (2023-04-22T22:50:50Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3
and Challenging for GPT-4 [0.0]
大型言語モデル (LLM) は、ゼロショット推論機能を実証している。
本稿では,探偵パズルとして構築された191の長文(平均1200語)のミステリー物語からなる,そのようなベンチマークを紹介する。
GPT-3モデルは28%の精度でランダムに性能を上回り、最先端のGPT-4ではパズルの38%しか解けていない。
論文 参考訳(メタデータ) (2022-12-20T09:34:43Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。