論文の概要: Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
- arxiv url: http://arxiv.org/abs/2509.24473v2
- Date: Thu, 02 Oct 2025 06:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.144146
- Title: Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
- Title(参考訳): ユークリッドのギフト:幾何学的代理課題による視覚言語モデルにおける空間知覚と推論の促進
- Authors: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen,
- Abstract要約: ユークリッド幾何学の問題解決を代理課題として扱う。
モデルがユークリッドの原理を取得し、適用できるようにするため、Qwen2.5VLファミリーとRoboBrain2.0ファミリーを微調整する。
実験により, 得られたモデルが4つの空間的推論ベンチマークにおいて, 実質的なゼロショットゲインを達成できることが実証された。
- 参考スコア(独自算出の注目度): 22.52796625148737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising approximately 30K plane and solid geometry problems. To enable the model to acquire and apply Euclidean principles from these geometry problems, we employed Group Relative Policy Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family, inspiring the models to identify shapes, count, and relate entities, and perform multi-step deductive reasoning using Euclidean principles. Our experiments demonstrate that the resulting models achieve substantial zero-shot gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them, RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first systematic study showing that geometry-centric fine-tuning can confer vision-language models with broadly transferable spatial skills. Code and Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.
- Abstract(参考訳): 空間知能は、形状の可視化と変換、精神的に回転する物体、関係位置と囲い込みの判断、数奇心の推定など、豊富な能力群にまたがる。
しかし、これは依然としてMLLM(Multimodal Large Language Models)にとって重要な未解決課題である。
このギャップを埋めるために、ユークリッド幾何学の問題解決を代理課題として扱うことを提案する。
具体的には、約30K平面と固形状問題からなるEuclid30Kと呼ばれる、キュレートされたマルチモーダルデータセットを慎重に構築した。
モデルがユークリッドの原理をこれらの幾何学的問題から獲得・適用できるようにするため,我々はグループ相対政策最適化(GRPO)を用いてQwen2.5VLファミリーとRoboBrain2.0ファミリーを微調整し,モデルに形、数、実体を識別させ,ユークリッドの原理を用いて多段階帰納的推論を行う。
実験の結果, タスク固有の適応を伴わずに, 4つの空間推論ベンチマーク (Super-CLEVR, Omni3DBench, VSI-Bench, MindCube) において, ゼロショットゲインが得られることが示された。
特に、Euclid30Kでのトレーニングの後、評価された全てのモデルの平均VSI-Bench精度は34.5%から40.5%に上昇し、5.5ポイント向上した。
このうち,RoboBrain2.0-Euclid-7Bは,従来の最先端モデルであるSpatial-MLLMを上回り,49.6%の精度を実現している。
CodeとEuclids30Kデータセットはhttps://zgca-ai4edu.github.io/Euclids_Gift.orgにある。
関連論文リスト
- GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs [7.605833826892782]
本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。
17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。
これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
論文 参考訳(メタデータ) (2025-05-23T09:17:07Z) - Towards Non-Euclidean Foundation Models: Advancing AI Beyond Euclidean Frameworks [19.08129891252494]
本ワークショップは,非ユークリッド基礎モデルと幾何学的学習(NEGEL)の交わりに着目したワークショップである。
非ユークリッド空間は、本質的な幾何学的性質を持つデータに対してより効率的かつ効果的な表現を提供することが示されている。
論文 参考訳(メタデータ) (2025-05-20T14:28:59Z) - Position: Beyond Euclidean -- Foundation Models Should Embrace Non-Euclidean Geometries [42.83280708842304]
ユークリッド空間は、機械学習アーキテクチャの事実上の幾何学的設定である。
大規模では、実世界のデータは、多方向関係、階層、対称性、非等方スケーリングなど、本質的に非ユークリッド構造を示すことが多い。
本稿では,ユークリッド幾何学を超越した移動は,単なる任意の拡張ではなく,次世代基礎モデルのスケーリング法則を維持することの必要性を論じる。
論文 参考訳(メタデータ) (2025-04-11T18:07:33Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions [23.294711275107606]
本稿では,画像から2次元の幾何情報を正確に転写するMLLMの能力を評価するベンチマークであるGeoperceptionを紹介する。
次に、幾何学的タスクにおける性能向上のための戦略を探るため、総合的な実証的研究を行う。
我々は,強低レベルの幾何学的知覚に特化して最適化されたモデル群であるEuclidを開発する。
論文 参考訳(メタデータ) (2024-12-11T19:12:13Z) - Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring [34.37450586634531]
本稿では,LVLM(Large Vision Language Models)の問題解決能力を高めるため,GPSM4Kを提案する。
GPSM4Kは7~12年生の数学教科書から手作業で抽出した2157個の質問応答対を含んでいる。
このデータセットは、LVLMの幾何学的推論能力を評価するための優れたベンチマークとなる。
論文 参考訳(メタデータ) (2024-12-01T15:19:23Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。