論文の概要: Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
- arxiv url: http://arxiv.org/abs/2508.13142v1
- Date: Mon, 18 Aug 2025 17:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.521594
- Title: Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
- Title(参考訳): GPT-5は空間知能を達成したか? : 実証的研究
- Authors: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang,
- Abstract要約: GPT-5は、これまでで最も強力なAIモデルだと言われている。
8つのベンチマークで最先端のプロプライエタリモデルとオープンソースモデルを評価した。
- 参考スコア(独自算出の注目度): 67.26290518883262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies existing benchmarks and discuss the challenges in ensuring fair evaluation. We then evaluate state-of-the-art proprietary and open-source models on eight key benchmarks, at a cost exceeding one billion total tokens. Our empirical study reveals that (1) GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2) still falls short of human performance across a broad spectrum of tasks. Moreover, we (3) identify the more challenging spatial intelligence problems for multi-modal models, and (4) proprietary models do not exhibit a decisive advantage when facing the most difficult problems. In addition, we conduct a qualitative evaluation across a diverse set of scenarios that are intuitive for humans yet fail even the most advanced multi-modal models.
- Abstract(参考訳): マルチモーダルモデルは近年顕著な進歩を遂げている。
それでも、彼らは空間的理解と推論において顕著な限界を示し続けており、それは人工知能を達成するための基本的な能力である。
GPT-5の最近のリリースは、これまでで最も強力なAIモデルと言われているが、主要なモデルが空間知性への道のどこにあるかを調べるのがタイミングだ。
まず,既存のベンチマークを統一した空間課題の包括的分類法を提案し,公正な評価を確保する上での課題について議論する。
次に8つの主要なベンチマークで、最先端のプロプライエタリおよびオープンソースモデルを10億以上のトークンで評価する。
実験により,(1) GPT-5は空間知能において前例のない強みを示すが,(2)課題の範囲ではまだ人的性能に欠けることが明らかとなった。
さらに, マルチモーダルモデルにおいて, より困難な空間知能問題を特定し, (4) プロプライエタリモデルでは最も困難な問題に直面する場合, 決定的な優位性は示さない。
さらに,最も先進的なマルチモーダルモデルでさえも,人間にとって直感的でありながら失敗する様々なシナリオに対して質的な評価を行う。
関連論文リスト
- Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark [0.0]
フレーム問題とシンボルグラウンド問題(英語版)は歴史的に、伝統的なシンボルAIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
論文 参考訳(メタデータ) (2025-06-09T16:12:47Z) - MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [50.38961770108891]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。
我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。
最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文 参考訳(メタデータ) (2025-05-29T17:59:52Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。