論文の概要: VIEW2SPACE: Studying Multi-View Visual Reasoning from Sparse Observations
- arxiv url: http://arxiv.org/abs/2603.16506v1
- Date: Tue, 17 Mar 2026 13:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.302363
- Title: VIEW2SPACE: Studying Multi-View Visual Reasoning from Sparse Observations
- Title(参考訳): VIEW2SPACE:スパース観測による多視点視覚推論の研究
- Authors: Fucai Ke, Zhixi Cai, Boying Li, Long Chen, Beibei Lin, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Hamid Rezatofighi,
- Abstract要約: 多視点視覚推論は、スパースと離散的な視点から複雑な環境を理解する必要があるインテリジェントシステムにとって不可欠である。
現実のシナリオでは、ビュー間の推論は、明示的なガイダンスなしで部分的な観察を統合する必要がある。
我々は物理基底シミュレーションを利用して、ビュー毎の正確なメタデータを持つ多種多様な高忠実な3Dシーンを構築する。
- 参考スコア(独自算出の注目度): 47.94531550391802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view visual reasoning is essential for intelligent systems that must understand complex environments from sparse and discrete viewpoints, yet existing research has largely focused on single-image or temporally dense video settings. In real-world scenarios, reasoning across views requires integrating partial observations without explicit guidance, while collecting large-scale multi-view data with accurate geometric and semantic annotations remains challenging. To address this gap, we leverage physically grounded simulation to construct diverse, high-fidelity 3D scenes with precise per-view metadata, enabling scalable data generation that remains transferable to real-world settings. Based on this engine, we introduce VIEW2SPACE, a multi-dimensional benchmark for sparse multi-view reasoning, together with a scalable, disjoint training split supporting millions of grounded question-answer pairs. Using this benchmark, a comprehensive evaluation of state-of-the-art vision-language and spatial models reveals that multi-view reasoning remains largely unsolved, with most models performing only marginally above random guessing. We further investigate whether training can bridge this gap. Our proposed Grounded Chain-of-Thought with Visual Evidence substantially improves performance under moderate difficulty, and generalizes to real-world data, outperforming existing approaches in cross-dataset evaluation. We further conduct difficulty-aware scaling analyses across model size, data scale, reasoning depth, and visibility constraints, indicating that while geometric perception can benefit from scaling under sufficient visibility, deep compositional reasoning across sparse views remains a fundamental challenge.
- Abstract(参考訳): 多視点視覚推論は、スパースや離散的な視点から複雑な環境を理解する必要があるインテリジェントシステムにとって不可欠であるが、既存の研究は、主に単一画像または時間的に密集したビデオ設定に焦点を当てている。
現実のシナリオでは、ビューを横断する推論には、明示的なガイダンスなしで部分的な観察を統合する必要があるが、正確な幾何学的および意味的なアノテーションで大規模なマルチビューデータを収集することは依然として困難である。
このギャップに対処するために、物理基底シミュレーションを活用して、ビュー毎の正確なメタデータを持つ多種多様な高忠実な3Dシーンを構築し、現実世界の環境に移動可能なスケーラブルなデータ生成を可能にする。
このエンジンをベースとして,マルチビュー推論のための多次元ベンチマークであるVIEW2SPACEを導入し,スケーラブルで非結合なトレーニング分割を併用して,数百万の質問応答ペアをサポートする。
このベンチマークを用いて、最先端の視覚言語および空間モデルの包括的評価により、多視点推論は未解決のままであり、ほとんどのモデルはランダムな推測よりもわずかに多い。
トレーニングがこのギャップを埋めるかどうかをさらに検討する。
提案手法では,視覚的エビデンスを用いたグラウンドド・チェーン・オブ・ソートにより,適度な難易度で性能が大幅に向上し,実世界のデータに一般化し,クロスデータセット評価における既存手法よりも優れている。
さらに、モデルサイズ、データスケール、推論深度、可視性制約をまたいだスケーリング分析を行い、幾何学的認識は十分な可視性の下でのスケーリングの恩恵を受けるが、スパースビューにおける深い構成的推論は依然として根本的な課題であることを示す。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - SpatialMosaic: A Multiview VLM Dataset for Partial Visibility [25.874299974251965]
本稿では,現実的な空間推論QAを構築する,スケーラブルなマルチビューデータ生成とアノテーションパイプラインを提案する。
本研究では,現実的かつ困難なシナリオ下での多視点空間推論評価のためのベンチマークであるSpatialMosaic-Benchを紹介する。
また、3次元再構成モデルを視覚言語モデル内の幾何学エンコーダとして統合するハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
論文 参考訳(メタデータ) (2025-12-29T10:48:54Z) - Reasoning Path and Latent State Analysis for Multi-view Visual Spatial Reasoning: A Cognitive Science Perspective [17.592210658831902]
空間推論は、人間の知性の中核的な側面であり、3D環境における知覚、推論、計画を可能にする。
現在の視覚言語モデル(VLM)は、多視点設定における空間的推論のための幾何学的コヒーレンスとクロスビュー整合性を維持するのに苦労している。
本稿では,VLMが相補的な視点で空間的メンタルモデルを構築し,調整し,維持する方法を評価するための,認知的基盤を持つベンチマークであるReMindView-Benchを紹介する。
論文 参考訳(メタデータ) (2025-12-02T02:21:29Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Partial Multi-View Clustering via Meta-Learning and Contrastive Feature Alignment [13.511433241138702]
部分的マルチビュークラスタリング (PVC) は、実世界のアプリケーションにおけるデータ分析における実用的な研究課題である。
既存のクラスタリング手法は、不完全なビューを効果的に扱うのに苦労し、サブ最適クラスタリング性能に繋がる。
非完全多視点データにおける潜在的特徴の一貫性を最大化することを目的とした、コントラスト学習に基づく新しい双対最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T19:16:01Z) - Hierarchical Mutual Information Analysis: Towards Multi-view Clustering
in The Wild [9.380271109354474]
この研究は、データリカバリとアライメントを階層的に一貫した方法で融合し、異なるビュー間の相互情報を最大化するディープMVCフレームワークを提案する。
私たちの知る限りでは、これは欠落したデータ問題と不整合データ問題に異なる学習パラダイムで別々に対処する最初の試みになるかもしれません。
論文 参考訳(メタデータ) (2023-10-28T06:43:57Z) - A Variational Information Bottleneck Approach to Multi-Omics Data
Integration [98.6475134630792]
本稿では,不完全な多視点観測のための深い変動情報ボトルネック (IB) 手法を提案する。
本手法は,対象物に関連のある視点内および視点間相互作用に焦点をあてるために,観測された視点の辺縁および結合表現にISBフレームワークを適用した。
実世界のデータセットの実験から、我々の手法はデータ統合から常に利益を得て、最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2021-02-05T06:05:39Z) - Agglomerative Neural Networks for Multi-view Clustering [109.55325971050154]
本稿では,最適コンセンサスを近似する凝集分析法を提案する。
本稿では,制約付きラプラシアンランクに基づくANN(Agglomerative Neural Network)を用いて,マルチビューデータをクラスタリングする。
4つの一般的なデータセットに対する最先端のマルチビュークラスタリング手法に対する我々の評価は、ANNの有望なビュー・コンセンサス分析能力を示している。
論文 参考訳(メタデータ) (2020-05-12T05:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。