論文の概要: Learning Multi-View Spatial Reasoning from Cross-View Relations
- arxiv url: http://arxiv.org/abs/2603.27967v1
- Date: Mon, 30 Mar 2026 02:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.198219
- Title: Learning Multi-View Spatial Reasoning from Cross-View Relations
- Title(参考訳): クロスビュー関係から多視点空間推論を学習する
- Authors: Suchae Jeong, Jaehwi Song, Haeone Lee, Hanna Kim, Jian Kim, Dongjun Lee, Dong Kyu Shin, Changyeon Kim, Dongyoon Hahm, Woogyeol Jin, Juheon Choi, Kimin Lee,
- Abstract要約: Cross-View Relations (XVR)は、複数のビューにまたがる空間的推論を教えるために設計された大規模なデータセットである。
XVRは18Kの多様な3Dシーンと70Kのロボット操作トラジェクトリから得られた100Kの視覚探索回答サンプルで構成されている。
本研究は,多視点空間関係の明示的なトレーニングにより,多視点推論と実世界のロボット操作への効果的移行が著しく促進されることを示す。
- 参考スコア(独自算出の注目度): 25.46703240216267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have achieved impressive results on single-view vision tasks, but lack the multi-view spatial reasoning capabilities essential for embodied AI systems to understand 3D environments and manipulate objects across different viewpoints. In this work, we introduce Cross-View Relations (XVR), a large-scale dataset designed to teach VLMs spatial reasoning across multiple views. XVR comprises 100K vision-question-answer samples derived from 18K diverse 3D scenes and 70K robotic manipulation trajectories, spanning three fundamental spatial reasoning tasks: Correspondence (matching objects across views), Verification (validating spatial relationships), and Localization (identifying object positions). VLMs fine-tuned on XVR achieve substantial improvements on established multi-view and robotic spatial reasoning benchmarks (MindCube and RoboSpatial). When integrated as backbones in Vision-Language-Action models, XVR-trained representations improve success rates on RoboCasa. Our results demonstrate that explicit training on cross-view spatial relations significantly enhances multi-view reasoning and transfers effectively to real-world robotic manipulation.
- Abstract(参考訳): 視覚言語モデル(VLM)は、単一視点の視覚タスクにおいて印象的な結果を得たが、3D環境を理解し、異なる視点でオブジェクトを操作するために、具体化されたAIシステムに必要な多視点空間推論能力は欠如している。
本研究では,複数のビューにまたがる空間的推論をVLMに教えるための大規模データセットであるクロスビューリレーショナル(XVR)を紹介する。
XVRは18Kの多様な3Dシーンと70Kのロボット操作トラジェクトリから得られた100Kの視覚探索回答サンプルで構成されており、対応性(ビュー間でオブジェクトをマッチング)、検証性(空間関係の検証)、局所性(物体位置の特定)という3つの基本的な空間推論タスクにまたがっている。
XVRで微調整されたVLMは、確立されたマルチビューおよびロボット空間推論ベンチマーク(MindCubeとRoboSpatial)で大幅に改善された。
Vision-Language-Actionモデルでバックボーンとして統合されると、XVRで訓練された表現はRoboCasaの成功率を向上させる。
本研究は,多視点空間関係の明示的なトレーニングにより,多視点推論と実世界のロボット操作への効果的移行が著しく促進されることを示す。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Spatial-ViLT: Enhancing Visual Spatial Reasoning through Multi-Task Learning [1.5604334108839177]
視覚言語モデル(VLM)は高度なマルチモーダル推論を持つが、3Dシーンや複雑なオブジェクト構成の空間的推論では依然として課題に直面している。
本研究では,深度マップ,3次元座標,エッジマップなどの空間的特徴をマルチタスク学習フレームワークを通じて統合する拡張VLMであるSpatialViLTを紹介する。
本研究では,SpatialViLTとMaskedSpatialViLTの2つの変種を提案する。
我々のモデルは、視覚空間推論(VSR)データセットで示されるように、方向、位相、近接関係などの空間的推論のカテゴリで優れている。
論文 参考訳(メタデータ) (2025-10-03T19:04:15Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。