論文の概要: SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.08531v1
- Date: Thu, 09 Oct 2025 17:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.279343
- Title: SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models
- Title(参考訳): 空間ラダー:視覚・言語モデルにおける空間推論のためのプログレッシブトレーニング
- Authors: Hongxing Li, Dingming Li, Zixuan Wang, Yuchen Yan, Hang Wu, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang,
- Abstract要約: 本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
- 参考スコア(独自算出の注目度): 73.19077622773075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning remains a fundamental challenge for Vision-Language Models (VLMs), with current approaches struggling to achieve robust performance despite recent advances. We identify that this limitation stems from a critical gap: existing methods attempt to learn spatial reasoning directly without establishing the hierarchical foundations of perception and understanding. To address this challenge, we present a comprehensive methodology for building spatial intelligence progressively. We introduce SpatialLadder-26k, a multimodal dataset containing 26,610 samples spanning object localization, single image, multi-view, and video spatial reasoning tasks, constructed through a standardized pipeline that ensures systematic coverage across modalities. Building on this dataset, we design a three-stage progressive training framework that (1) establishes spatial perception through object localization, (2) develops spatial understanding through multi-dimensional spatial tasks, and (3) strengthens complex reasoning via reinforcement learning with verifiable rewards. This approach yields SpatialLadder, a 3B-parameter model that achieves state-of-the-art performance on spatial reasoning benchmarks, with 23.4% average improvement over the base model, surpassing GPT-4o by 20.8% and Gemini-2.0-Flash by 10.1%. Notably, SpatialLadder maintains strong generalization with 7.2% improvement on out-of-domain benchmarks, demonstrating that progressive training from perception to reasoning is essential for robust spatial intelligence.
- Abstract(参考訳): 空間的推論はビジョン・ランゲージ・モデル(VLM)の基本的な課題であり、近年の進歩にもかかわらず、現在のアプローチは堅牢な性能を達成するのに苦慮している。
既存の手法は、知覚と理解の階層的基盤を確立することなく、空間的推論を直接学習しようとするものである。
この課題に対処するために,空間知能を段階的に構築するための包括的方法論を提案する。
本研究では,オブジェクトローカライゼーション,単一画像,マルチビュー,ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
このデータセットに基づいて,(1)物体の局所化による空間認識の確立,(2)多次元空間タスクによる空間理解の発達,(3)検証可能な報酬を伴う強化学習による複雑な推論の強化を行う3段階のプログレッシブ・トレーニング・フレームワークを設計する。
このアプローチは、空間推論ベンチマークで最先端のパフォーマンスを達成する3BパラメータモデルであるSpatialLadderを、GPT-4oを20.8%上回り、Gemini-2.0-Flashを10.1%上回る23.4%改善した。
特に、SpatialLadderは、ドメイン外のベンチマークを7.2%改善して強力な一般化を維持しており、認識から推論への進歩的なトレーニングが堅牢な空間知能に不可欠であることを実証している。
関連論文リスト
- TinyGiantVLM: A Lightweight Vision-Language Architecture for Spatial Reasoning under Resource Constraints [1.7542461418660966]
本稿では,空間的推論のための軽量でモジュラーなフレームワークであるTinyGiantVLMを紹介する。
提案手法は,RGBと奥行き変調のグローバルな特徴と地域レベルの特徴を事前学習した視覚的バックボーンを用いて符号化する。
高モダリティ入力と多様な質問型の複雑性を効果的に処理するために、Mixture-of-Experts (MoE) 融合モジュールを組み込む。
論文 参考訳(メタデータ) (2025-08-25T01:36:22Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。