論文の概要: Exploring Spatial Intelligence from a Generative Perspective
- arxiv url: http://arxiv.org/abs/2604.20570v1
- Date: Wed, 22 Apr 2026 13:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.153011
- Title: Exploring Spatial Intelligence from a Generative Perspective
- Title(参考訳): 創造的視点から見た空間知の探索
- Authors: Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, Zekai Luo, Hao Zhong, Anzhou Li, Kaijun Wang, Jintao Rong, Yang Liu, Hao Chen, Tao Lin, Chunhua Shen,
- Abstract要約: GSI-Benchは空間的に接地された画像編集によって空間知能を定量化する最初のベンチマークである。
実験により、GSI-Syn上の微調整された統一マルチモーダルモデルでは、合成タスクと実タスクの両方でかなりの利得が得られることが示された。
これは、生成的トレーニングが空間的推論を明示的に強化できるという最初の明確な証拠を提供し、マルチモーダルモデルにおける空間的インテリジェンスを前進させる新たな経路を確立する。
- 参考スコア(独自算出の注目度): 46.58725881825513
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.
- Abstract(参考訳): 空間知能は多モーダルな大言語モデルには不可欠であるが、現在のベンチマークでは理解の観点からのみ評価されている。
現代の生成モデルや統合型マルチモーダルモデルは、生成空間知能(GSI)も持っているのか、画像生成中に3次元空間制約を尊重し、操作できるのか、そしてそのような能力を測定または改善できるかを問う。
GSI-Benchは空間的接地画像編集によってGSIを定量化する最初のベンチマークである。
GSI-Realは3Dプリンシパル生成とフィルタリングパイプラインを通じて構築された高品質の現実世界データセットであり、GSI-Synは制御可能な空間操作と完全自動ラベリングを備えた大規模合成ベンチマークである。
GSI-Benchは、統一された評価プロトコルとともに、空間コンプライアンスと編集忠実性のスケーラブルでモデルに依存しない評価を可能にする。
実験により、GSI-Syn上での微調整による統一マルチモーダルモデルでは、合成タスクと実タスクの両方でかなりの利得が得られ、さらに、下流空間の理解も大幅に向上することが示された。
これは、生成的トレーニングが空間的推論を明示的に強化できるという最初の明確な証拠を提供し、マルチモーダルモデルにおける空間的インテリジェンスを前進させる新たな経路を確立する。
関連論文リスト
- OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence [81.95171718605265]
高品質、拡張性、幅広いタスクの多様性、最適化された効率性のために設計されたオープンソースのデータエンジンであるOpenSpatialを紹介します。
OpenSpatialは5つの基本的なタスクにまたがって包括的なデータ階層を構築するための基本的なプリミティブとして3Dバウンディングボックスを採用している。
我々は300万個の高忠実度サンプルからなる大規模データセットOpenSpatial-3Mをキュレートする。
論文 参考訳(メタデータ) (2026-04-08T17:03:02Z) - World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models [25.135316296678187]
既存の手法は、3Dグラウンドデータを介して統計的ショートカットを過度に適合させるか、2Dの視覚的知覚に限定される。
トレーニング不要な空間情報ツールキット World2Mind を提案する。
我々はWorld2MindがGPT-5.2のようなフロンティアモデルの性能を5%18%向上させることを示した。
論文 参考訳(メタデータ) (2026-03-10T15:12:14Z) - SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning [30.87517633729756]
SSRはStructured Scene Reasoning用に設計されたフレームワークである。
軽量アライメント機構によって2Dと3Dの表現をシームレスに統合する。
複数の空間インテリジェンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-28T02:05:35Z) - Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models [18.24287471339871]
ハイパースペクトルイメージング(HSI)は、多数の狭い波長帯にわたる密度のスペクトル測定とともに空間情報をキャプチャする。
本アーキテクチャでは、スペクトル変換器とスペクトル対応空間先行モジュールを組み込んで、豊富な空間スペクトル特徴を抽出する。
我々のアーキテクチャは、HSI入力を直接使用しながら、最先端のセマンティックセマンティックセマンティックセマンティクス性能を実現し、ビジョンベースとハイパースペクトルセマンティクスの両方のセマンティクス法より優れている。
論文 参考訳(メタデータ) (2025-09-24T13:32:07Z) - Spatial Knowledge Graph-Guided Multimodal Synthesis [78.11669780958657]
本稿では,空間知識グラフによって導かれる新しいマルチモーダル合成手法を提案する。
実験では、方向や距離を含む多様な空間知識から合成されたデータにより、MLLMの空間知覚と推論能力が著しく向上する。
知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
論文 参考訳(メタデータ) (2025-05-28T17:50:21Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model [88.13261547704444]
Hyper SIGMAは、タスクやシーン間でHSI解釈を統合するビジョントランスフォーマーベースの基礎モデルである。
さらに,約450Kのハイパースペクトル画像を含む,事前学習のための大規模ハイパースペクトルデータセットHyperGlobal-450Kを構築した。
論文 参考訳(メタデータ) (2024-06-17T13:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。