論文の概要: Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges
- arxiv url: http://arxiv.org/abs/2505.11618v2
- Date: Tue, 27 May 2025 16:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.126545
- Title: Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges
- Title(参考訳): LLMと推論モデルにおける時空間推論のベンチマーク:能力と課題
- Authors: Pengrui Quan, Brian Wang, Kang Yang, Liying Han, Mani Srivastava,
- Abstract要約: 本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。
モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。
LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
- 参考スコア(独自算出の注目度): 4.668749313973097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatiotemporal reasoning plays a key role in Cyber-Physical Systems (CPS). Despite advances in Large Language Models (LLMs) and Large Reasoning Models (LRMs), their capacity to reason about complex spatiotemporal signals remains underexplored. This paper proposes a hierarchical SpatioTemporal reAsoning benchmaRK, STARK, to systematically evaluate LLMs across three levels of reasoning complexity: state estimation (e.g., predicting field variables, localizing and tracking events in space and time), spatiotemporal reasoning over states (e.g., inferring spatial-temporal relationships), and world-knowledge-aware reasoning that integrates contextual and domain knowledge (e.g., intent prediction, landmark-aware navigation). We curate 26 distinct spatiotemporal tasks with diverse sensor modalities, comprising 14,552 challenges where models answer directly or by Python Code Interpreter. Evaluating 3 LRMs and 8 LLMs, we find LLMs achieve limited success in tasks requiring geometric reasoning (e.g., multilateration or triangulation), particularly as complexity increases. Surprisingly, LRMs show robust performance across tasks with various levels of difficulty, often competing or surpassing traditional first-principle-based methods. Our results show that in reasoning tasks requiring world knowledge, the performance gap between LLMs and LRMs narrows, with some LLMs even surpassing LRMs. However, the LRM o3 model continues to achieve leading performance across all evaluated tasks, a result attributed primarily to the larger size of the reasoning models. STARK motivates future innovations in model architectures and reasoning paradigms for intelligent CPS by providing a structured framework to identify limitations in the spatiotemporal reasoning of LLMs and LRMs.
- Abstract(参考訳): 時空間推論はサイバー物理システム(CPS)において重要な役割を果たしている。
LLM(Large Language Models)やLarge Reasoning Models(Large Reasoning Models)の進歩にもかかわらず、複雑な時空間信号の推論能力はいまだ検討されていない。
本稿では、状態推定(例えば、フィールド変数の予測、空間と時間におけるイベントの局所化と追跡)、状態に対する時空間推論(例えば、時空間関係の推測)、文脈とドメインの知識を統合した世界知識認識推論(例えば、意図予測、ランドマーク認識ナビゲーション)の3段階にわたるLCMを体系的に評価する階層的時空間推論ベンチMARK(STARK)を提案する。
モデルが直接あるいはPython Code Interpreterによって応答する14,552の課題を含む,26の異なる時空間タスクを多様なセンサモードでキュレートする。
3 LRMと8 LLMを評価し、特に複雑性が増大するにつれて、LLMは幾何学的推論(例えば、マルチラテラル化や三角測量)を必要とするタスクにおいて、限られた成功を収めることがわかった。
意外なことに、LEMは様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
その結果, LLM と LRM のパフォーマンスギャップが狭くなり, 一部の LLM は LRM を超越していることがわかった。
しかしながら、LRM o3モデルは、主に推論モデルのサイズが大きいため、評価されたすべてのタスクにおいて、主要なパフォーマンスを実現し続けている。
STARKは、LLMとLRMの時空間推論における制限を識別する構造化されたフレームワークを提供することで、モデルアーキテクチャと知的CPSの推論パラダイムにおける将来の革新を動機付けている。
関連論文リスト
- A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law [29.763080554625216]
本調査は「スロー思考」を模倣した大規模言語モデル(LLM)の最近の進歩を考察する。
LLMは、数学の推論、視覚的推論、診断、マルチエージェントの議論などの複雑なタスクの間、動的に計算資源をスケーリングすることに焦点を当てている。
論文 参考訳(メタデータ) (2025-05-05T14:14:59Z) - Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach [15.960271016276447]
8大言語モデル(LLM)における数学的推論能力の体系的評価について述べる。
DeepSeek-R1は、ほとんどのドメインでo1と競合し、MMLU Formal Logicベンチマークで最高精度を達成する。
アーキテクチャの選択、トレーニングパラダイム、最適化戦略が、推論性能の変動にどのように貢献するかを考察する。
論文 参考訳(メタデータ) (2025-03-13T17:23:45Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。