論文の概要: Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2511.16160v1
- Date: Thu, 20 Nov 2025 08:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.542176
- Title: Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning
- Title(参考訳): Video2Layout:空間推論のためのメトリックグラウンド認知マップのリコールとリコンストラクション
- Authors: Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao,
- Abstract要約: Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。
このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。
我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
- 参考スコア(独自算出の注目度): 19.549136366694572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial intelligence is a critical frontier for Multimodal Large Language Models (MLLMs), empowering them to comprehend the physical world. Drawing inspiration from human perception mechanisms, existing studies attempt to construct a coherent spatial understanding via grid-based cognitive maps from multi-frame visual inputs. However, current grid-based map methods rely on discretized raster representations, which limit the model's ability in fine-grained spatial reasoning. To overcome this limitation, we propose Video2Layout, a framework for reconstructing metric-grounded spatial layouts from video. The framework employs continuous object boundary coordinates to quantify inter-object physical distances and object size. This empowers the model with quantitative spatial computation capabilities, effectively alleviating the inherent ambiguity when describing spatial relationships in natural language. Specifically, our method comprises two core stages. First, in supervised fine-tuning stage, we construct a high-quality dataset from the AI2THOR simulator, which enables the model to learn the mapping from visual inputs to precise boundary coordinates. Subsequently, a reinforcement fine-tuning stage further enhances the model's real-world generalization capabilities. To systematically evaluate the correlation between cognitive map accuracy and image quantity, as well as how the quantity of image inputs affects spatial reasoning accuracy, we introduce QVS-Bench, a diagnostic benchmark designed to analyze the relevant mechanisms. Evaluated on QVS-Bench and mainstream spatial reasoning benchmarks, our model, V2LO-7B achieves an average improvement of 4.92% over the model trained on grid maps, validating the superiority of our method. Our code is available at https://github.com/ybrrraway/Video2Layout.
- Abstract(参考訳): 空間知能はマルチモーダル大言語モデル(MLLM)にとって重要なフロンティアであり、物理的な世界を理解できるようにする。
人間の知覚機構からインスピレーションを得た既存の研究は、多フレーム視覚入力からのグリッドベースの認知地図を通して、コヒーレントな空間理解を構築しようとするものである。
しかし、現在のグリッドベースの地図法は離散化されたラスタ表現に依存しており、空間的推論の微粒化におけるモデルの能力を制限する。
この制限を克服するため,ビデオから距離空間レイアウトを再構成するためのフレームワークであるVideo2Layoutを提案する。
このフレームワークは、オブジェクト間の物理的距離とオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。
これにより、定量的な空間計算能力を持つモデルが強化され、自然言語における空間的関係を記述する際の本来のあいまいさを効果的に緩和する。
具体的には,2つのコアステージから構成される。
まず、教師付き微調整段階において、AI2THORシミュレータから高品質なデータセットを構築し、視覚入力から正確な境界座標へのマッピングを学習する。
その後、強化された微調整段階により、モデルの現実世界の一般化能力はさらに強化される。
認知地図の精度と画像量との相関や画像入力量が空間的推論精度に与える影響を体系的に評価するために,関連するメカニズムを分析するための診断ベンチマークであるQVS-Benchを導入する。
QVS-Benchおよび主流空間推論ベンチマークに基づいて,本モデルであるV2LO-7Bは,グリッドマップ上で訓練されたモデルよりも平均4.92%向上し,本手法の優位性を検証した。
私たちのコードはhttps://github.com/ybrrraway/Video2Layout.comから入手可能です。
関連論文リスト
- Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。