論文の概要: DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry
- arxiv url: http://arxiv.org/abs/2510.22340v1
- Date: Sat, 25 Oct 2025 15:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.105556
- Title: DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry
- Title(参考訳): DynaSolidGeo:固体幾何学におけるVLMの空間的推論の動的ベンチマーク
- Authors: Changti Wu, Shijie Lian, Zihao Liu, Lei Zhang, Laurence Tianruo Yang, Kai Chen,
- Abstract要約: DynaSolidGeoは視覚言語モデル(VLM)における真の空間的推論を評価するためのベンチマークである
専門家による503のシード質問が含まれており、原則として、多様なマルチモーダルテキストビジュアルインスタンスを動的に生成することができる。
我々は、論理的妥当性と因果コヒーレンスを測定するために、専門家アノテート推論チェーンに基づくプロセス評価を取り入れた。
- 参考スコア(独自算出の注目度): 21.08408074777344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solid geometry problem solving demands spatial mathematical reasoning that integrates spatial intelligence and symbolic reasoning. However, most existing multimodal mathematical reasoning benchmarks focus primarily on 2D plane geometry, rely on static datasets prone to data contamination and memorization, and evaluate models solely by final answers, overlooking the reasoning process. To address these limitations, we introduce DynaSolidGeo, the first dynamic benchmark for evaluating genuine spatial reasoning in Vision-Language Models (VLMs). Constructed through a semi-automatic annotation pipeline, DynaSolidGeo contains 503 expert-curated seed questions that can, in principle, dynamically generate an unbounded number of diverse multimodal text-visual instances. Beyond answer accuracy, we incorporate process evaluation based on expert-annotated reasoning chains to measure logical validity and causal coherence. Experiments across representative open-source and closed-source VLMs reveal large performance gaps, severe degradation in dynamic settings, and poor performance on tasks requiring high-level spatial intelligence, such as mental rotation and visualization. The code and dataset are available at \href{https://zgca-ai4edu.github.io/DynaSolidGeo/}{DynaSolidGeo}.
- Abstract(参考訳): ソリッド幾何学の問題解決は、空間的知性と記号的推論を統合する空間数学的推論を必要とする。
しかし、既存の多くのマルチモーダル数学的推論ベンチマークは、主に2次元平面幾何学に焦点をあて、データの汚染や記憶に起因する静的データセットに依存し、推論プロセスを見越して最終回答のみによってモデルを評価する。
このような制約に対処するために、視覚言語モデル(VLM)における真の空間推論を評価するための最初の動的ベンチマークであるDynaSolidGeoを紹介する。
DynaSolidGeoはセミオートマチックなアノテーションパイプラインを通じて構築され、503人の専門家によって計算されたシード質問が含まれており、原則として、多様なマルチモーダルテキスト-ビジュアルインスタンスを動的に生成することができる。
解答精度以外にも、専門家による推論連鎖に基づくプロセス評価を取り入れ、論理的妥当性と因果コヒーレンスを測定する。
代表的なオープンソースとクローズドソースのVLMに対する実験では、大きなパフォーマンスギャップ、動的設定の大幅な劣化、メンタルローテーションや可視化といった高レベルの空間知性を必要とするタスクにおけるパフォーマンスの低下が示されている。
コードとデータセットは \href{https://zgca-ai4edu.github.io/DynaSolidGeo/}{DynaSolidGeo} で公開されている。
関連論文リスト
- GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs [7.605833826892782]
本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。
17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。
これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
論文 参考訳(メタデータ) (2025-05-23T09:17:07Z) - TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [44.42918139949761]
オープンな3次元空間における最先端基礎モデル(SOTA)の空間的推論能力を包括的に評価する新しいベンチマークOpen3DVQAを提案する。
Open3DVQAは9kのVQAサンプルで構成され、高忠実度都市シミュレーターにおける効率的な半自動ツールを用いて収集される。
論文 参考訳(メタデータ) (2025-03-14T05:35:38Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。