論文の概要: ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints
- arxiv url: http://arxiv.org/abs/2511.18450v1
- Date: Sun, 23 Nov 2025 13:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.847353
- Title: ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints
- Title(参考訳): ORIGAMISPACE:数学的制約を考慮したマルチステップ空間推論におけるマルチモーダルLLMのベンチマーク
- Authors: Rui Xu, Dakuan Lu, Zicheng Zhao, Xiaoyu Tan, Xintao Wang, Siyu Yuan, Jiangjie Chen, Yinghui Xu,
- Abstract要約: 本稿では,多段階空間推論能力の評価を目的とした新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
- 参考スコア(独自算出の注目度): 42.713620384054146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning is a key capability in the field of artificial intelligence, especially crucial in areas such as robotics, computer vision, and natural language understanding. However, evaluating the ability of multimodal large language models(MLLMs) in complex spatial reasoning still faces challenges, particularly in scenarios requiring multi-step reasoning and precise mathematical constraints. This paper introduces ORIGAMISPACE, a new dataset and benchmark designed to evaluate the multi-step spatial reasoning ability and the capacity to handle mathematical constraints of MLLMs through origami tasks. The dataset contains 350 data instances,each comprising a strictly formatted crease pattern (CP diagram), the Compiled Flat Pattern, the complete Folding Process, and the final Folded Shape Image. We propose four evaluation tasks: Pattern Prediction, Multi-step Spatial Reasoning, Spatial Relationship Prediction, and End-to-End CP Code Generation. For the CP code generation task, we design an interactive environment and explore the possibility of using reinforcement learning methods to train MLLMs. Through experiments on existing MLLMs, we initially reveal the strengths and weaknesses of these models in handling complex spatial reasoning tasks.
- Abstract(参考訳): 空間推論は人工知能の分野で重要な能力であり、特にロボット工学、コンピュータビジョン、自然言語理解などの分野において重要である。
しかし、複雑な空間推論におけるマルチモーダルな大言語モデル(MLLM)の能力の評価は、特に多段階推論と正確な数学的制約を必要とするシナリオにおいて、依然として課題に直面している。
本稿では,多段階空間推論能力とMLLMの数学的制約を折り紙タスクで処理する能力を評価するために設計された,新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
データセットには350のデータインスタンスが含まれており、それぞれが厳密にフォーマットされたクレーゼパターン(CPダイアグラム)、コンパイルされたフラットパターン、完全なフォールディングプロセス、最終的なフォールド形状イメージで構成されている。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
CPコード生成タスクでは,対話型環境を設計し,強化学習手法を用いてMLLMを学習する可能性を探る。
既存のMLLMの実験を通して、複雑な空間的推論タスクの処理において、これらのモデルの長所と短所を明らかにする。
関連論文リスト
- NUMINA: A Natural Understanding Benchmark for Multi-dimensional Intelligence and Numerical Reasoning Abilities [13.229850508079073]
我々は,多次元インテリジェンスと数値推論のための最初の自然理解ベンチマークであるNUMINAを紹介する。
Chat-Scene フレームワークによるNUMINA 上での様々な最先端 LLM の性能評価を行った。
論文 参考訳(メタデータ) (2025-09-20T12:05:47Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [54.486757407849915]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。