論文の概要: CogToM: A Comprehensive Theory of Mind Benchmark inspired by Human Cognition for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15628v1
- Date: Thu, 22 Jan 2026 03:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.48797
- Title: CogToM: A Comprehensive Theory of Mind Benchmark inspired by Human Cognition for Large Language Models
- Title(参考訳): CogToM:大規模言語モデルに対する人間の認知に触発された心の総合的ベンチマーク理論
- Authors: Haibo Tong, Zeyang Yue, Feifei Zhao, Erliang Lin, Lu Jia, Ruolin Chen, Yinqian Sun, Qian Zhang, Yi Zeng,
- Abstract要約: 46のパラダイムにわたる8000以上のバイリンガルインスタンスからなる包括的,理論的に基礎付けられたベンチマークであるCogToMを紹介した。
GPT-5.1やQwen3-Maxのようなフロンティアモデルを含む22の代表的なモデルの体系的な評価は、重要なパフォーマンスの不均一性を示し、特定の次元における永続的なボトルネックを強調している。
CogToMは、大規模言語モデルの認知境界の進化を研究するための堅牢な手段と視点を提供する。
- 参考スコア(独自算出の注目度): 8.120889327955032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether Large Language Models (LLMs) truly possess human-like Theory of Mind (ToM) capabilities has garnered increasing attention. However, existing benchmarks remain largely restricted to narrow paradigms like false belief tasks, failing to capture the full spectrum of human cognitive mechanisms. We introduce CogToM, a comprehensive, theoretically grounded benchmark comprising over 8000 bilingual instances across 46 paradigms, validated by 49 human annotator.A systematic evaluation of 22 representative models, including frontier models like GPT-5.1 and Qwen3-Max, reveals significant performance heterogeneities and highlights persistent bottlenecks in specific dimensions. Further analysis based on human cognitive patterns suggests potential divergences between LLM and human cognitive structures. CogToM offers a robust instrument and perspective for investigating the evolving cognitive boundaries of LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) が真に人間の心の理論 (ToM) を持つかどうかは注目されている。
しかし、既存のベンチマークは、疑似信念タスクのような狭いパラダイムに限られており、人間の認知メカニズムの完全なスペクトルを捉えていない。
我々は,46のパラダイムにまたがる8000以上のバイリンガルインスタンスからなる包括的,理論的に基礎付けられたベンチマークであるCogToMを紹介し,GPT-5.1やQwen3-Maxといったフロンティアモデルを含む22の代表的なモデルの体系的評価を行った。
人間の認知パターンに基づくさらなる分析は、LLMと人間の認知構造の間の潜在的な相違を示唆している。
CogToMは、LLMの認知境界の進化を研究するための堅牢な手段と視点を提供する。
関連論文リスト
- HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity [28.797461492275488]
MME-CCは、11の代表的な推論タスクを3つの基本的な視覚情報カテゴリにまとめるビジョングラウンドのベンチマークである。
MME-CCに基づいて16種類のMLLMに対して広範囲な実験を行った。
我々は、方向の誤り、脆弱なクロスビュー・アイデンティティの永続性、および非現実的命令への従順性の欠如など、一般的なエラーパターンを識別する。
論文 参考訳(メタデータ) (2025-11-05T03:09:16Z) - Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Core Knowledge Deficits in Multi-Modal Language Models [41.422258645731276]
MLLM(Multi-modal Large Language Models)は、ハイレベルな認識と推論よりも印象的な能力を示す。
しかし、野生での頑丈さは限定的であり、人間にとって直感的で努力の無い仕事では不足することが多い。
これらの欠陥は,幼少期から人間に根ざした,中核的な知識の欠如に起因する,という仮説を考察する。
論文 参考訳(メタデータ) (2024-10-06T20:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。