論文の概要: Theory of Mind Might Have Spontaneously Emerged in Large Language Models
- arxiv url: http://arxiv.org/abs/2302.02083v5
- Date: Sat, 11 Nov 2023 23:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 22:29:23.158123
- Title: Theory of Mind Might Have Spontaneously Emerged in Large Language Models
- Title(参考訳): 大規模言語モデルで自然発生した心の理論
- Authors: Michal Kosinski
- Abstract要約: 心の理論(ToM)は、大きな言語モデル(LLM)に自然に現れるかもしれない
ToMをヒトでテストする際の金の基準として,40の偽確認タスクを設計し,複数のLSMに投与した。
各タスクには、偽確認シナリオ、3つの密に一致した真信制御、全4つの逆バージョンが含まれていた。
GPT-3-davinci-003とChatGPT-3.5-turboは20%のタスクを解き、ChatGPT-4は75%のタスクを解き、6歳児のパフォーマンスに匹敵する。
- 参考スコア(独自算出の注目度): 11.622327857276389
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We explore the intriguing possibility that theory of mind (ToM), or the
uniquely human ability to impute unobservable mental states to others, might
have spontaneously emerged in large language models (LLMs). We designed 40
false-belief tasks, considered a gold standard in testing ToM in humans, and
administered them to several LLMs. Each task included a false-belief scenario,
three closely matched true-belief controls, and the reversed versions of all
four. Smaller and older models solved no tasks; GPT-3-davinci-003 (from
November 2022) and ChatGPT-3.5-turbo (from March 2023) solved 20% of the tasks;
ChatGPT-4 (from June 2023) solved 75% of the tasks, matching the performance of
six-year-old children observed in past studies. These findings suggest the
intriguing possibility that ToM, previously considered exclusive to humans, may
have spontaneously emerged as a byproduct of LLMs' improving language skills.
- Abstract(参考訳): 我々は、心の理論(ToM)や、観察不能な精神状態を他人に説明するユニークな人間の能力が、大きな言語モデル(LLM)に自然に現れる可能性を探る。
ToMをヒトでテストする際の金の基準として,40の偽確認タスクを設計し,複数のLSMに投与した。
各タスクには、偽確認シナリオ、3つの密に一致した真信制御、全4つの逆バージョンが含まれていた。
GPT-3-davinci-003(2022年11月)とChatGPT-3.5-turbo(2023年3月)は20%のタスクを解き、ChatGPT-4(2023年6月)は75%のタスクを解き、過去の研究で観察された6歳児のパフォーマンスと一致した。
これらの結果から,これまでヒトに排他的と考えられていたToMが,LLMの言語能力向上の副産物として自然に出現した可能性が示唆された。
関連論文リスト
- Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,新しいマルチタスク空間評価データセットを提案する。
データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含む。
この研究は、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
論文 参考訳(メタデータ) (2024-08-26T17:25:16Z) - Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Boosting Theory-of-Mind Performance in Large Language Models via
Prompting [2.538209532048867]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。
ToM理解の改善における文脈内学習の有効性を検討した。
論文 参考訳(メタデータ) (2023-04-22T22:50:50Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3
and Challenging for GPT-4 [0.0]
大型言語モデル (LLM) は、ゼロショット推論機能を実証している。
本稿では,探偵パズルとして構築された191の長文(平均1200語)のミステリー物語からなる,そのようなベンチマークを紹介する。
GPT-3モデルは28%の精度でランダムに性能を上回り、最先端のGPT-4ではパズルの38%しか解けていない。
論文 参考訳(メタデータ) (2022-12-20T09:34:43Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。