論文の概要: CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?
- arxiv url: http://arxiv.org/abs/2603.11915v1
- Date: Thu, 12 Mar 2026 13:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.107567
- Title: CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?
- Title(参考訳): CoMMET: LLMがマインドタスクの理論を遂行できるものは何か?
- Authors: Ruirui Chen, Weifeng Jiang, Chengwei Qin, Cheston Tan,
- Abstract要約: 心の理論 (ToM) - 自己や他人の精神状態について考える能力は、人間の社会的知性の基礎である。
LLM(Large Language Models)におけるToMを評価するための既存のベンチマークは限られている。
- 参考スコア(独自算出の注目度): 26.35781229730513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of Mind (ToM)-the ability to reason about the mental states of oneself and others-is a cornerstone of human social intelligence. As Large Language Models (LLMs) become ubiquitous in real-world applications, validating their capacity for this level of social reasoning is essential for effective and natural interactions. However, existing benchmarks for assessing ToM in LLMs are limited; most rely solely on text inputs and focus narrowly on belief-related tasks. In this paper, we propose a new multimodal benchmark dataset, CoMMET, a Comprehensive Mental states and Moral Evaluation Task inspired by the Theory of Mind Booklet Task. CoMMET expands the scope of evaluation by covering a broader range of mental states and introducing multi-turn testing. To the best of our knowledge, this is the first multimodal dataset to evaluate ToM in a multi-turn conversational setting. Through a comprehensive assessment of LLMs across different families and sizes, we analyze the strengths and limitations of current models and identify directions for future improvement. Our work offers a deeper understanding of the social cognitive capabilities of modern LLMs.
- Abstract(参考訳): 心の理論 (ToM) - 自己や他人の精神状態について考える能力は、人間の社会的知性の基礎である。
大規模言語モデル(LLM)が現実世界のアプリケーションで普及するにつれて、このレベルの社会的推論の能力を検証することは、効果的で自然な相互作用に不可欠である。
しかし、既存のLLMでのToM評価ベンチマークは限定的であり、多くはテキスト入力にのみ依存し、信念に関連したタスクに限定している。
本稿では,マルチモーダル・ベンチマーク・データセットであるCoMMETと,マインドブックレット・タスクにインスパイアされた包括的メンタル・ステートとモラル・アセスメント・タスクを提案する。
CoMMETは、幅広い精神状態をカバーし、マルチターンテストを導入することで、評価の範囲を広げる。
我々の知る限りでは、これはマルチターン会話環境でToMを評価する最初のマルチモーダルデータセットである。
異なる家族や規模にわたるLCMの総合的な評価を通じて、現在のモデルの強さと限界を分析し、今後の改善に向けた方向性を特定する。
我々の研究は、現代のLLMの社会的認知能力についてより深く理解している。
関連論文リスト
- UniToMBench: Integrating Perspective-Taking to Improve Theory of Mind in LLMs [1.4304078520604593]
心の理論(ToM)は、大きな言語モデル(LLM)にとって難しい領域である。
本稿では,SimToMとTOMBENCHの強みを統合する統一ベンチマークUniToMBenchを紹介する。
論文 参考訳(メタデータ) (2025-06-11T06:55:40Z) - XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。
XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。
以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文 参考訳(メタデータ) (2025-06-03T05:23:25Z) - Theory of Mind in Large Language Models: Assessment and Enhancement [26.35781229730513]
心の理論 (ToM) - 自己や他人の精神状態について考える能力は、人間の社会的知性の基礎である。
大きな言語モデル(LLM)が日々の生活にますます統合されるにつれて、人間の精神状態の解釈と応答能力を理解することは、効果的な相互作用の実現に不可欠である。
論文 参考訳(メタデータ) (2025-04-26T10:17:48Z) - PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues [27.231701486961917]
本稿では,大規模言語モデルのマインド能力理論を評価するためのベンチマークであるPersuasiveToMを提案する。
フレームワークには、ToM ReasoningとToM Applicationという2つのコアタスクが含まれています。
PersuasiveToMの目的は、複雑な心理的活動に焦点を当てたLSMのToM推論能力を効果的に評価することである。
論文 参考訳(メタデータ) (2025-02-28T13:04:04Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [41.565202027904476]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。