Fugu-MT 論文翻訳(概要): Evaluating Large Language Models in Theory of Mind Tasks

論文の概要: Evaluating Large Language Models in Theory of Mind Tasks

arxiv url: http://arxiv.org/abs/2302.02083v7
Date: Mon, 04 Nov 2024 19:51:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 22:11:15.539341
Title: Evaluating Large Language Models in Theory of Mind Tasks
Title（参考訳）: 心的課題論における大規模言語モデルの評価
Authors: Michal Kosinski,
Abstract要約: 11つの大規模言語モデル (LLM) は、偽確認タスクのカスタムメイドバッテリを用いて評価された。バッテリーには640のプロンプトが含まれており、40のタスクにまたがっている。 1つのタスクを解決するには、8つのシナリオすべてに16のプロンプトを正しく答える必要がある。
参考スコア（独自算出の注目度）: 11.622327857276389
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Eleven Large Language Models (LLMs) were assessed using a custom-made battery of false-belief tasks, considered a gold standard in testing Theory of Mind (ToM) in humans. The battery included 640 prompts spread across 40 diverse tasks, each one including a false-belief scenario, three closely matched true-belief control scenarios, and the reversed versions of all four. To solve a single task, a model needed to correctly answer 16 prompts across all eight scenarios. Smaller and older models solved no tasks; GPT-3-davinci-003 (from November 2022) and ChatGPT-3.5-turbo (from March 2023) solved 20% of the tasks; ChatGPT-4 (from June 2023) solved 75% of the tasks, matching the performance of six-year-old children observed in past studies. We explore the potential interpretation of these findings, including the intriguing possibility that ToM, previously considered exclusive to humans, may have spontaneously emerged as a byproduct of LLMs' improving language skills.
Abstract（参考訳）: 11つの大規模言語モデル (LLM) は、人間の心の理論(ToM)のテストにおいて、金の標準であると考えられていた、偽確認タスクのカスタムメイドバッテリーを用いて評価された。バッテリーには、40種類のタスクにまたがる640のプロンプトが含まれており、それぞれが偽確認シナリオ、密に一致した真信制御シナリオ3つ、全4つのリバースバージョンが含まれていた。 1つのタスクを解決するには、8つのシナリオすべてに16のプロンプトを正しく答える必要がある。 GPT-3-davinci-003(2022年11月)とChatGPT-3.5-turbo(2023年3月)は20%のタスクを解き、ChatGPT-4(2023年6月)は75%のタスクを解き、過去の研究で観察された6歳児のパフォーマンスと一致した。これまでに人間専用と考えられていたToMが、LLMの言語能力向上の副産物として自然に現れた可能性を含め、これらの発見の潜在的な解釈について検討する。

関連論文リスト

Zero-Shot Commonsense Validation and Reasoning with Large Language Models: An Evaluation on SemEval-2020 Task 4 Dataset [0.16385815610837165]
本研究では,SemEval-2020 Task 4データセット上でのLarge Language Models(LLM)の性能を評価する。モデルは、タスクA(Commonsense Validation)とタスクB(Commonsense Explanation)の2つのタスクでテストされる。結果、LLaMA3-70BはタスクAで98.40%の最高精度を達成し、タスクBで93.40%の旧モデルより遅れていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-19T12:40:49Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,新しいマルチタスク空間評価データセットを提案する。データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含む。この研究は、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
論文参考訳（メタデータ） (2024-08-26T17:25:16Z)
Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。 200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。 GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文参考訳（メタデータ） (2024-04-30T12:43:53Z)
Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。 ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-05-17T23:16:17Z)
Boosting Theory-of-Mind Performance in Large Language Models via Prompting [2.538209532048867]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。 ToM理解の改善における文脈内学習の有効性を検討した。
論文参考訳（メタデータ） (2023-04-22T22:50:50Z)
How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。 GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文参考訳（メタデータ） (2023-03-01T07:39:01Z)
True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3 and Challenging for GPT-4 [0.0]
大型言語モデル (LLM) は、ゼロショット推論機能を実証している。本稿では,探偵パズルとして構築された191の長文(平均1200語)のミステリー物語からなる,そのようなベンチマークを紹介する。 GPT-3モデルは28%の精度でランダムに性能を上回り、最先端のGPT-4ではパズルの38%しか解けていない。
論文参考訳（メタデータ） (2022-12-20T09:34:43Z)
Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文参考訳（メタデータ） (2022-11-16T18:51:34Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)
Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文参考訳（メタデータ） (2021-12-20T16:52:35Z)
Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文参考訳（メタデータ） (2020-09-07T17:59:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。