論文の概要: ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints
- arxiv url: http://arxiv.org/abs/2511.18450v1
- Date: Sun, 23 Nov 2025 13:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.847353
- Title: ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints
- Title(参考訳): ORIGAMISPACE:数学的制約を考慮したマルチステップ空間推論におけるマルチモーダルLLMのベンチマーク
- Authors: Rui Xu, Dakuan Lu, Zicheng Zhao, Xiaoyu Tan, Xintao Wang, Siyu Yuan, Jiangjie Chen, Yinghui Xu,
- Abstract要約: 本稿では,多段階空間推論能力の評価を目的とした新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
- 参考スコア(独自算出の注目度): 42.713620384054146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning is a key capability in the field of artificial intelligence, especially crucial in areas such as robotics, computer vision, and natural language understanding. However, evaluating the ability of multimodal large language models(MLLMs) in complex spatial reasoning still faces challenges, particularly in scenarios requiring multi-step reasoning and precise mathematical constraints. This paper introduces ORIGAMISPACE, a new dataset and benchmark designed to evaluate the multi-step spatial reasoning ability and the capacity to handle mathematical constraints of MLLMs through origami tasks. The dataset contains 350 data instances,each comprising a strictly formatted crease pattern (CP diagram), the Compiled Flat Pattern, the complete Folding Process, and the final Folded Shape Image. We propose four evaluation tasks: Pattern Prediction, Multi-step Spatial Reasoning, Spatial Relationship Prediction, and End-to-End CP Code Generation. For the CP code generation task, we design an interactive environment and explore the possibility of using reinforcement learning methods to train MLLMs. Through experiments on existing MLLMs, we initially reveal the strengths and weaknesses of these models in handling complex spatial reasoning tasks.
- Abstract(参考訳): 空間推論は人工知能の分野で重要な能力であり、特にロボット工学、コンピュータビジョン、自然言語理解などの分野において重要である。
しかし、複雑な空間推論におけるマルチモーダルな大言語モデル(MLLM)の能力の評価は、特に多段階推論と正確な数学的制約を必要とするシナリオにおいて、依然として課題に直面している。
本稿では,多段階空間推論能力とMLLMの数学的制約を折り紙タスクで処理する能力を評価するために設計された,新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
データセットには350のデータインスタンスが含まれており、それぞれが厳密にフォーマットされたクレーゼパターン(CPダイアグラム)、コンパイルされたフラットパターン、完全なフォールディングプロセス、最終的なフォールド形状イメージで構成されている。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
CPコード生成タスクでは,対話型環境を設計し,強化学習手法を用いてMLLMを学習する可能性を探る。
既存のMLLMの実験を通して、複雑な空間的推論タスクの処理において、これらのモデルの長所と短所を明らかにする。
関連論文リスト
- PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration [17.887453138676964]
本研究では,テキストスポッティングモデルの強みをLLMの文脈的推論とシームレスに統合するパラメータ効率の高いハイブリッドアーキテクチャであるPlaceOCRを紹介する。
このフレームワークは、特にテキストグラウンドやテキストスポッティングといったタスクに優れた、優れたマルチモーダル処理能力を示す。
論文 参考訳(メタデータ) (2026-02-22T13:36:48Z) - NUMINA: A Natural Understanding Benchmark for Multi-dimensional Intelligence and Numerical Reasoning Abilities [13.229850508079073]
我々は,多次元インテリジェンスと数値推論のための最初の自然理解ベンチマークであるNUMINAを紹介する。
Chat-Scene フレームワークによるNUMINA 上での様々な最先端 LLM の性能評価を行った。
論文 参考訳(メタデータ) (2025-09-20T12:05:47Z) - MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes [1.0799568216202955]
MLLM(Multimodal Large Language Models)の重要なフロンティアは、画像から直接、数学的および空間的推論を行う能力である。
MARVL-QAは、これらのコア推論スキルを定量的に評価するために設計された新しいベンチマークである。
MARVL-QAは、最先端のMLLMでさえ、頑丈な空間的推論ではなく表面的手法に頼って、かなり苦労していることを明らかにしている。
論文 参考訳(メタデータ) (2025-08-24T01:24:56Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [54.486757407849915]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。