論文の概要: Spatial-ViLT: Enhancing Visual Spatial Reasoning through Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2510.03441v1
- Date: Fri, 03 Oct 2025 19:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.046957
- Title: Spatial-ViLT: Enhancing Visual Spatial Reasoning through Multi-Task Learning
- Title(参考訳): 空間-ViLT:マルチタスク学習による視覚空間推論の強化
- Authors: Chashi Mahiul Islam, Oteo Mamo, Samuel Jacob Chacko, Xiuwen Liu, Weikuan Yu,
- Abstract要約: 視覚言語モデル(VLM)は高度なマルチモーダル推論を持つが、3Dシーンや複雑なオブジェクト構成の空間的推論では依然として課題に直面している。
本研究では,深度マップ,3次元座標,エッジマップなどの空間的特徴をマルチタスク学習フレームワークを通じて統合する拡張VLMであるSpatialViLTを紹介する。
本研究では,SpatialViLTとMaskedSpatialViLTの2つの変種を提案する。
我々のモデルは、視覚空間推論(VSR)データセットで示されるように、方向、位相、近接関係などの空間的推論のカテゴリで優れている。
- 参考スコア(独自算出の注目度): 1.5604334108839177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have advanced multimodal reasoning but still face challenges in spatial reasoning for 3D scenes and complex object configurations. To address this, we introduce SpatialViLT, an enhanced VLM that integrates spatial features like depth maps, 3D coordinates, and edge maps through a multi-task learning framework. This approach enriches multimodal embeddings with spatial understanding. We propose two variants: SpatialViLT and MaskedSpatialViLT, focusing on full and masked object regions, respectively. Additionally, SpatialEnsemble combines both approaches, achieving state-of-the-art accuracy. Our models excel in spatial reasoning categories such as directional, topological, and proximity relations, as demonstrated on the challenging Visual Spatial Reasoning (VSR) dataset. This work represents a significant step in enhancing the spatial intelligence of AI systems, crucial for advanced multimodal understanding and real-world applications.
- Abstract(参考訳): 視覚言語モデル(VLM)は高度なマルチモーダル推論を持つが、3Dシーンや複雑なオブジェクト構成の空間的推論では依然として課題に直面している。
そこで本研究では,深度マップや3次元座標,エッジマップといった空間的特徴をマルチタスク学習フレームワークを通じて統合した拡張VLMであるSpatialViLTを紹介する。
このアプローチは空間的理解を伴うマルチモーダル埋め込みを豊かにする。
本研究では,SpatialViLTとMaskedSpatialViLTの2つの変種を提案する。
さらに、SpatialEnsembleは両方のアプローチを組み合わせることで、最先端の精度を実現している。
我々のモデルは、視覚空間推論(VSR)データセットで示されるように、方向、位相、近接関係などの空間的推論のカテゴリで優れている。
この研究は、高度なマルチモーダル理解と実世界の応用に欠かせない、AIシステムの空間知性を高めるための重要なステップである。
関連論文リスト
- How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model [33.18304419115947]
SEE&TREKは、視覚のみの制約下でのマルチモーダル大言語モデル(MLLM)の空間的理解を強化する最初のトレーニングフリープロンプトフレームワークである。
視覚的多様性の向上と運動再建に注力する。
本手法はトレーニング・GPUフリーであり,1回のフォワードパスしか必要とせず,既存のMLLMSにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-09-19T15:30:26Z) - Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment [2.9493863710375674]
VEMEは、未知の環境における複雑なタスクのためのディープラーニングモデルにおいて、人間のような推論を実現するための新しい方法である。
本フレームワークは,(1)オブジェクト,空間表現,視覚的意味論を時間的手がかりでブリッジするクロスランゲージアライメントフレームワーク,(2)タスク関連メモリリコールを可能にする動的で暗黙的な認知活性化世界埋め込み,(3)長期計画と効率的な探索のための指示に基づくナビゲーションと推論の3つの重要な構成要素を統合する。
論文 参考訳(メタデータ) (2025-08-29T19:47:25Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Elite360M: Efficient 360 Multi-task Learning via Bi-projection Fusion and Cross-task Collaboration [5.577935944665]
360度カメラは周囲の環境全体をFoVで捉え、3D構造を直接推測するための総合的な視覚情報を表示する。
既存の作品は、主に1つのタスクに特化しており、3次元幾何学と意味論のマルチタスク学習はほとんど探索されていない。
本研究では,深度と表面の正規推定による3次元構造推定とセマンティックセグメンテーションによるセマンティックスを同時に行うことができる,新しいエンドツーエンドマルチタスク学習フレームワークElite360Mを提案する。
論文 参考訳(メタデータ) (2024-08-18T02:33:45Z) - SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors [42.85605789984155]
空間的視覚的質問応答(VQA)において、最先端の空間的推論強化VLMを訓練する
本研究では,VLMの空間的推論能力を高めるためのフレームワークであるSpatialPINを提案する。
我々の空間推論型VLMは、空間的VQAの様々な形態でうまく機能し、ピックやスタック、軌道計画といった下流ロボット作業に役立てることができる。
論文 参考訳(メタデータ) (2024-03-18T17:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。