Fugu-MT 論文翻訳(概要): Spatial Understanding from Videos: Structured Prompts Meet Simulation Data

論文の概要: Spatial Understanding from Videos: Structured Prompts Meet Simulation Data

arxiv url: http://arxiv.org/abs/2506.03642v1
Date: Wed, 04 Jun 2025 07:36:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.196713
Title: Spatial Understanding from Videos: Structured Prompts Meet Simulation Data
Title（参考訳）: ビデオからの空間的理解:シミュレーションデータを用いた構造化プロンプト
Authors: Haoyu Zhang, Meng Liu, Zaijing Li, Haokun Wen, Weili Guan, Yaowei Wang, Liqiang Nie,
Abstract要約: 本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
参考スコア（独自算出の注目度）: 79.52833996220059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual-spatial understanding, the ability to infer object relationships and layouts from visual input, is fundamental to downstream tasks such as robotic navigation and embodied interaction. However, existing methods face spatial uncertainty and data scarcity, limiting the 3D spatial reasoning capability of pre-trained vision-language models (VLMs). To address these challenges, we present a unified framework for enhancing 3D spatial reasoning in pre-trained VLMs without modifying their architecture. This framework combines SpatialMind, a structured prompting strategy that decomposes complex scenes and questions into interpretable reasoning steps, with ScanForgeQA, a scalable question-answering dataset built from diverse 3D simulation scenes through an automated construction process designed for fine-tuning. Extensive experiments across multiple benchmarks demonstrate the individual and combined effectiveness of our prompting and fine-tuning strategies, and yield insights that may inspire future research on visual-spatial understanding.
Abstract（参考訳）: 視覚空間理解、オブジェクトの関係やレイアウトを視覚入力から推測する能力は、ロボットナビゲーションや具体的相互作用といった下流のタスクに基本的である。しかし、既存の手法では空間的不確実性とデータ不足に直面し、事前学習された視覚言語モデル(VLM)の3次元空間推論能力を制限する。これらの課題に対処するため,既訓練VLMにおける3次元空間推論をアーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、さまざまな3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを、微調整用に設計された自動構築プロセスを通じて組み合わせている。複数のベンチマークにまたがる広範囲な実験は、刺激的かつ微調整的な戦略の個人的および組み合わせの有効性を示し、視覚空間的理解に関する将来の研究に刺激を与えるかもしれない洞察を与える。

関連論文リスト

SpatialMosaic: A Multiview VLM Dataset for Partial Visibility [25.874299974251965]
本稿では,現実的な空間推論QAを構築する,スケーラブルなマルチビューデータ生成とアノテーションパイプラインを提案する。本研究では,現実的かつ困難なシナリオ下での多視点空間推論評価のためのベンチマークであるSpatialMosaic-Benchを紹介する。また、3次元再構成モデルを視覚言語モデル内の幾何学エンコーダとして統合するハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
論文参考訳（メタデータ） (2025-12-29T10:48:54Z)
Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。 3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。 Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-12-14T20:02:43Z)
Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文参考訳（メタデータ） (2025-11-14T04:16:09Z)
SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。 SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文参考訳（メタデータ） (2025-11-06T18:53:31Z)
Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning [28.803789915686398]
3D Queryable Scene Representation(3D QSR)は、3つの補完的な3D表現を統合するマルチメディアデータ上に構築されたフレームワークである。オブジェクト中心の設計に基づいて構築されたこのフレームワークは、意味的なクエリビリティを実現するために、大きな視覚言語モデルと統合されている。その結果,シーン理解の促進と空間的および意味的推論の統合が,フレームワークの持つ能力を示す。
論文参考訳（メタデータ） (2025-09-24T12:53:32Z)
Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT [10.984522161856955]
3D再構成は、拡張現実やバーチャルリアリティー、自動運転、ロボット工学など、多くの応用の基盤となる技術だ。ディープラーニングは、3D再構築におけるパラダイムシフトを触媒している。新しいモデルでは、統合されたディープネットワークを使用して、カメラのポーズと密集した幾何学を、1つの前方通過における非拘束画像から直接推測する。
論文参考訳（メタデータ） (2025-07-11T09:41:54Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM [39.65493154187172]
大規模言語モデル(LLM)は、3D理解タスクを強化するために利用されており、従来のコンピュータビジョン手法を超越する可能性を示している。本稿では,既存の手法を3つの分野に分類する分類法を提案する。2次元視覚データから3次元理解を導出するイメージベース手法,3次元表現を直接扱うポイントクラウド方式,複数データストリームを組み合わせたハイブリッドモダリティ方式である。
論文参考訳（メタデータ） (2025-04-08T08:11:39Z)
LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-03T06:15:04Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors [42.85605789984155]
空間的視覚的質問応答(VQA)において、最先端の空間的推論強化VLMを訓練する本研究では,VLMの空間的推論能力を高めるためのフレームワークであるSpatialPINを提案する。我々の空間推論型VLMは、空間的VQAの様々な形態でうまく機能し、ピックやスタック、軌道計画といった下流ロボット作業に役立てることができる。
論文参考訳（メタデータ） (2024-03-18T17:38:29Z)
Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文参考訳（メタデータ） (2020-06-12T09:37:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。