Fugu-MT 論文翻訳(概要): Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

論文の概要: Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

arxiv url: http://arxiv.org/abs/2508.13142v1
Date: Mon, 18 Aug 2025 17:55:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:11.521594
Title: Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
Title（参考訳）: GPT-5は空間知能を達成したか? : 実証的研究
Authors: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang,
Abstract要約: GPT-5は、これまでで最も強力なAIモデルだと言われている。 8つのベンチマークで最先端のプロプライエタリモデルとオープンソースモデルを評価した。
参考スコア（独自算出の注目度）: 67.26290518883262
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies existing benchmarks and discuss the challenges in ensuring fair evaluation. We then evaluate state-of-the-art proprietary and open-source models on eight key benchmarks, at a cost exceeding one billion total tokens. Our empirical study reveals that (1) GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2) still falls short of human performance across a broad spectrum of tasks. Moreover, we (3) identify the more challenging spatial intelligence problems for multi-modal models, and (4) proprietary models do not exhibit a decisive advantage when facing the most difficult problems. In addition, we conduct a qualitative evaluation across a diverse set of scenarios that are intuitive for humans yet fail even the most advanced multi-modal models.
Abstract（参考訳）: マルチモーダルモデルは近年顕著な進歩を遂げている。それでも、彼らは空間的理解と推論において顕著な限界を示し続けており、それは人工知能を達成するための基本的な能力である。 GPT-5の最近のリリースは、これまでで最も強力なAIモデルと言われているが、主要なモデルが空間知性への道のどこにあるかを調べるのがタイミングだ。まず,既存のベンチマークを統一した空間課題の包括的分類法を提案し,公正な評価を確保する上での課題について議論する。次に8つの主要なベンチマークで、最先端のプロプライエタリおよびオープンソースモデルを10億以上のトークンで評価する。実験により,(1) GPT-5は空間知能において前例のない強みを示すが,(2)課題の範囲ではまだ人的性能に欠けることが明らかとなった。さらに, マルチモーダルモデルにおいて, より困難な空間知能問題を特定し, (4) プロプライエタリモデルでは最も困難な問題に直面する場合, 決定的な優位性は示さない。さらに,最も先進的なマルチモーダルモデルでさえも,人間にとって直感的でありながら失敗する様々なシナリオに対して質的な評価を行う。

関連論文リスト

Can LLMs Do Rocket Science? Exploring the Limits of Complex Reasoning with GTOC 12 [0.1710384116816033]
LLM(Large Language Models)は、コード生成と一般的な推論において顕著な習熟性を示している。本研究は、第12回グローバル軌道最適化コンペティション(GTOC 12)に対するAIエージェントの評価により、現在のAIエージェントの限界について検討する。我々は、MLE-Benchフレームワークを軌道力学の領域に適応させ、AIDEベースのエージェントアーキテクチャをデプロイし、ミッションソリューションを自律的に生成し、洗練する。
論文参考訳（メタデータ） (2026-02-03T15:18:26Z)
HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文参考訳（メタデータ） (2025-12-28T12:08:05Z)
Scaling Spatial Intelligence with Multimodal Foundation Models [90.32537840125009]
マルチモーダル・ファンデーション・モデルは空間知能に驚くべき欠陥をみせています我々は、高性能で堅牢な空間知性を構築するために、原則的なアプローチをとる。 SenseNova-SIは、幅広い空間インテリジェンスベンチマークで前例のない性能を示している。
論文参考訳（メタデータ） (2025-11-17T18:59:33Z)
BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities [61.173773299032746]
身体能力とは、エージェントが物理的世界を理解し、理解し、相互作用する一連の基本的な能力を指す。我々は,原子エンボディド能力のMLLMを評価する,包括的できめ細かなベンチマークであるBEARを紹介する。 BEARは、低レベルポインティング、軌跡理解、空間的推論、高レベルプランニングといったタスクを含む、14のドメインにまたがる4,469のインターリーブイメージビデオテキストエントリで構成されている。我々は,MLLM知覚,3D理解,計画能力を強化するために,事前学習された視覚モデルを統合するマルチモーダル・コンバータブルエージェントであるBEAR-Agentを提案する。
論文参考訳（メタデータ） (2025-10-09T19:18:36Z)
Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark [0.0]
フレーム問題とシンボルグラウンド問題(英語版)は歴史的に、伝統的なシンボルAIシステムでは解決不可能と見なされてきた。本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
論文参考訳（メタデータ） (2025-06-09T16:12:47Z)
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [50.38961770108891]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文参考訳（メタデータ） (2025-05-29T17:59:52Z)
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach [15.960271016276447]
8大言語モデル(LLM)における数学的推論能力の体系的評価について述べる。 DeepSeek-R1は、ほとんどのドメインでo1と競合し、MMLU Formal Logicベンチマークで最高精度を達成する。アーキテクチャの選択、トレーニングパラダイム、最適化戦略が、推論性能の変動にどのように貢献するかを考察する。
論文参考訳（メタデータ） (2025-03-13T17:23:45Z)
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文参考訳（メタデータ） (2024-06-18T16:20:53Z)
Integration of cognitive tasks into artificial general intelligence test for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文参考訳（メタデータ） (2024-02-04T15:50:42Z)
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文参考訳（メタデータ） (2023-10-03T17:57:24Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。