論文の概要: Visual Spatial Tuning
- arxiv url: http://arxiv.org/abs/2511.05491v1
- Date: Fri, 07 Nov 2025 18:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.871576
- Title: Visual Spatial Tuning
- Title(参考訳): 視覚空間調整
- Authors: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao,
- Abstract要約: 視覚空間調整(VST)は視覚言語モデル(VLM)を人間に似た視覚空間能力で培養する包括的フレームワークである。
特に,基礎的な空間知識を構築するための微調整を指導し,さらに空間推論能力を向上させるための強化学習を行う。
その結果、ビジョン・ランゲージ・アクションモデルが空間的チューニングのパラダイムによって大幅に拡張され、より物理的に接地されたAIへの道が開けることが判明した。
- 参考スコア(独自算出の注目度): 98.96397681943255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capturing spatial relationships from visual inputs is a cornerstone of human-like general intelligence. Several previous studies have tried to enhance the spatial awareness of Vision-Language Models (VLMs) by adding extra expert encoders, which brings extra overhead and usually harms general capabilities. To enhance the spatial ability in general architectures, we introduce Visual Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with human-like visuospatial abilities, from spatial perception to reasoning. We first attempt to enhance spatial perception in VLMs by constructing a large-scale dataset termed VST-P, which comprises 4.1 million samples spanning 19 skills across single views, multiple images, and videos. Then, we present VST-R, a curated dataset with 135K samples that instruct models to reason in space. In particular, we adopt a progressive training pipeline: supervised fine-tuning to build foundational spatial knowledge, followed by reinforcement learning to further improve spatial reasoning abilities. Without the side-effect to general capabilities, the proposed VST consistently achieves state-of-the-art results on several spatial benchmarks, including $34.8\%$ on MMSI-Bench and $61.2\%$ on VSIBench. It turns out that the Vision-Language-Action models can be significantly enhanced with the proposed spatial tuning paradigm, paving the way for more physically grounded AI.
- Abstract(参考訳): 視覚入力から空間的関係を捉えることは、人間のような汎用知能の基盤となる。
これまでのいくつかの研究は、視覚言語モデル(VLM)の空間的認識を高めるために、特別な専門家エンコーダを追加し、オーバーヘッドを増大させ、通常一般的な能力を損なうように試みてきた。
一般建築における空間能力を高めるため,視覚空間調整(VST)を導入し,空間知覚から推論まで,人間の視覚的空間能力でVLMを栽培する包括的枠組みを提案する。
VST-Pと呼ばれる大規模なデータセットを構築し、単一のビュー、複数画像、ビデオにまたがる19のスキルにまたがる4100万のサンプルを作成した。
次に,VST-Rを提案する。VST-Rは135Kのサンプルを持ち,モデルに空間的推論を指示する。
特に,基礎的な空間知識を構築するための微調整を指導し,さらに空間推論能力を向上させるための強化学習を行う。
一般的な機能に副作用がないため、提案されたVSTは、MMSI-Benchの$34.8\%、VSIBenchの$61.2\%など、いくつかの空間ベンチマークにおいて、常に最先端の結果を達成している。
その結果、ビジョン・ランゲージ・アクションのモデルは、提案された空間的チューニングパラダイムによって大幅に強化され、より物理的に基盤化されたAIへの道が開かれた。
関連論文リスト
- Cambrian-S: Towards Spatial Supersensing in Video [78.46305169769884]
我々は,意味認識,ストリーミングイベント認知,暗黙的な3次元空間認識,予測的世界モデリングという,言語のみの理解を超えた4つの段階を空間的スーパーセンシングとして捉えた。
VSR (long-horizon visual space recall) とVSC (continual visual space counting) の2部ベンチマークである。
次に、590Kを計算し、Cambrian-Sを訓練することで、任意の汎用能力に対して30%以上の絶対的な改善を達成し、データスケーリングの限界をテストする。
我々は,自己教師型概念実証を提示し,前方進路としての予測知覚を提案する。
論文 参考訳(メタデータ) (2025-11-06T18:55:17Z) - SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models [75.64836077468722]
視覚言語モデル(VLM)は2次元意味的視覚的理解において優れているが、3次元空間的関係について定量的に推論する能力はいまだ未解明のままである。
VLMの基本空間知覚能力を大幅に向上させる新しいフレームワークであるSD-VLMを提案する。
我々はSD-VLMを訓練した。これは強力な一般化VLMであり、より優れた空間的測定と理解能力を示す。
論文 参考訳(メタデータ) (2025-09-22T12:08:12Z) - See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model [33.18304419115947]
SEE&TREKは、視覚のみの制約下でのマルチモーダル大言語モデル(MLLM)の空間的理解を強化する最初のトレーニングフリープロンプトフレームワークである。
視覚的多様性の向上と運動再建に注力する。
本手法はトレーニング・GPUフリーであり,1回のフォワードパスしか必要とせず,既存のMLLMSにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-09-19T15:30:26Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data [7.142118464319378]
視覚言語モデル(VLM)は、画像キャプションから視覚質問応答(VQA)までのタスクでうまく機能する。
空間関係は一般的に広く使われているVLデータセットではまれであり、よく表現されているものはほとんどない。
我々は,超詳細な画像記述から生成された空間的推論に着目した合成VQAデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-29T11:18:38Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - TopViewRS: Vision-Language Models as Top-View Spatial Reasoners [38.406430696146714]
トップビューの視点は、人間が様々な種類の地図を読み、推論する典型的な方法である。
11,384の質問からなるTopViewRSデータセットを視覚入力として,現実的あるいは意味的なトップビューマップで紹介する。
次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。
論文 参考訳(メタデータ) (2024-06-04T17:55:43Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。