Fugu-MT 論文翻訳(概要): ToMBench: Benchmarking Theory of Mind in Large Language Models

論文の概要: ToMBench: Benchmarking Theory of Mind in Large Language Models

arxiv url: http://arxiv.org/abs/2402.15052v1
Date: Fri, 23 Feb 2024 02:05:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 16:02:34.997418
Title: ToMBench: Benchmarking Theory of Mind in Large Language Models
Title（参考訳）: ToMBench: 大規模言語モデルにおける心のベンチマーク理論
Authors: Zhuang Chen, Jincenzi Wu, Jinfeng Zhou, Bosi Wen, Guanqun Bi, Gongyao Jiang, Yaru Cao, Mengting Hu, Yunghwei Lai, Zexuan Xiong, Minlie Huang
Abstract要約: ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。 ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
参考スコア（独自算出の注目度）: 42.80231362967291
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Theory of Mind (ToM) is the cognitive capability to perceive and ascribe mental states to oneself and others. Recent research has sparked a debate over whether large language models (LLMs) exhibit a form of ToM. However, existing ToM evaluations are hindered by challenges such as constrained scope, subjective judgment, and unintended contamination, yielding inadequate assessments. To address this gap, we introduce ToMBench with three key characteristics: a systematic evaluation framework encompassing 8 tasks and 31 abilities in social cognition, a multiple-choice question format to support automated and unbiased evaluation, and a build-from-scratch bilingual inventory to strictly avoid data leakage. Based on ToMBench, we conduct extensive experiments to evaluate the ToM performance of 10 popular LLMs across tasks and abilities. We find that even the most advanced LLMs like GPT-4 lag behind human performance by over 10% points, indicating that LLMs have not achieved a human-level theory of mind yet. Our aim with ToMBench is to enable an efficient and effective evaluation of LLMs' ToM capabilities, thereby facilitating the development of LLMs with inherent social intelligence.
Abstract（参考訳）: 心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己や他者に対する精神状態の認知能力である。最近の研究は、大規模言語モデル(LLM)がToMの形式を示すかどうかという議論を巻き起こしている。しかし、既存のtom評価は、制限されたスコープ、主観的判断、意図しない汚染などの課題によって妨げられ、不十分な評価となる。このギャップに対処するために,8つのタスクと31の社会的認知能力を含む体系的評価フレームワーク,自動的かつ偏りのない評価を支援するマルチチョイス質問形式,データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチ・バイリンガルインベントリという,3つの重要な特徴を持つトンベンチを紹介する。 ToMBenchをベースとして,タスクや能力にまたがる10のLLMのToM性能を評価するための広範囲な実験を行った。 GPT-4のような最も先進的なLCMでさえ、人間のパフォーマンスの10%以上遅れており、LCMはまだ人間レベルの心の理論を達成できていないことを示している。 ToMBenchの目的は、LLMのToM能力の効率的かつ効果的な評価を可能にすることであり、それによって、固有の社会的知性を備えたLLMの開発を容易にすることである。

関連論文リスト

Rethinking Theory of Mind Benchmarks for LLMs: Towards A User-Centered Perspective [24.27038998164743]
Theory-of-Mind (ToM) タスクは、人間がLMのToM能力をベンチマークするために設計されている。このアプローチにはいくつかの制限があります。ヒューマン・コンピュータ・インタラクション(HCI)の観点から、これらの制限はToMベンチマークにおけるToMの定義と基準を再考するきっかけとなる。
論文参考訳（メタデータ） (2025-04-15T03:44:43Z)
Re-evaluating Theory of Mind evaluation in large language models [3.262532929657758]
認知科学からインスピレーションを得て,大規模言語モデルにおけるToM評価の状況を再評価する。 LLMがToMを持つかどうかについての意見の相違の主な理由は、モデルが人間の行動にマッチするかどうかの明確さの欠如である。 ToMと実用的コミュニケーションの関係など,今後の研究の方向性について論じる。
論文参考訳（メタデータ） (2025-02-28T14:36:57Z)
A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks [0.0]
本稿では,大規模言語モデル(LLM)のToMタスク実行能力を評価するための現在の取り組みを整理する。文学における繰り返しのテーマは、LLMがToMタスクにおける能力の増大を示す一方で、人間の認知能力のエミュレーションにおいて大きなギャップが持続していることを示している。
論文参考訳（メタデータ） (2025-02-12T21:19:30Z)
Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文参考訳（メタデータ） (2024-07-08T14:58:29Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
Theory of Mind in Large Language Models: Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests [1.099532646524593]
我々は、心の理論(ToM)に関連する能力に基づいて、11のベースおよび命令調整型大言語モデル(LLM)をテストする。また, GPT ファミリーの命令調整 LLM は, 他のモデルよりも優れており,子供もよく見られる。我々は,言語とToMの相互接続進化と開発が,命令チューニングがもたらす意味を説明するのに役立つことを示唆している。
論文参考訳（メタデータ） (2023-10-31T09:55:07Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。 LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文参考訳（メタデータ） (2023-06-21T16:42:15Z)
ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind [3.9599054392856483]
ToMChallengesは,Sally-Anne と Smarties のテストに基づいて,多種多様なタスクを用いて,心の理論を総合的に評価するためのデータセットである。評価結果と誤差分析により,LLMはプロンプトやタスク間で不整合な挙動を示す。
論文参考訳（メタデータ） (2023-05-24T11:54:07Z)
Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文参考訳（メタデータ） (2023-05-24T06:14:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。