論文の概要: MosaicThinker: On-Device Visual Spatial Reasoning for Embodied AI via Iterative Construction of Space Representation
- arxiv url: http://arxiv.org/abs/2602.07082v1
- Date: Fri, 06 Feb 2026 06:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.432101
- Title: MosaicThinker: On-Device Visual Spatial Reasoning for Embodied AI via Iterative Construction of Space Representation
- Title(参考訳): MosaicThinker: 空間表現の反復的構築による身体的AIのためのオンデバイス空間推論
- Authors: Haoming Wang, Qiyao Xue, Weichen Liu, Wei Gao,
- Abstract要約: 我々は、デバイス上で具体化されたAI、すなわちemphMosaicThinkerのための新しい推論時間計算手法を提案する。
我々の基本的な考え方は、複数のフレームからの断片化された空間情報をグローバルな意味マップの統一された空間表現に統合し、視覚的なプロンプトを通してVLMの空間推論を導くことである。
実験結果から,資源制約されたAIデバイス上でのクロスフレーム空間推論の精度を,多種多様なタイプや複雑なタスクの推論よりも大幅に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 11.01583588981339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When embodied AI is expanding from traditional object detection and recognition to more advanced tasks of robot manipulation and actuation planning, visual spatial reasoning from the video inputs is necessary to perceive the spatial relationships of objects and guide device actions. However, existing visual language models (VLMs) have very weak capabilities in spatial reasoning due to the lack of knowledge about 3D spatial information, especially when the reasoning task involve complex spatial relations across multiple video frames. In this paper, we present a new inference-time computing technique for on-device embodied AI, namely \emph{MosaicThinker}, which enhances the on-device small VLM's spatial reasoning capabilities on difficult cross-frame reasoning tasks. Our basic idea is to integrate fragmented spatial information from multiple frames into a unified space representation of global semantic map, and further guide the VLM's spatial reasoning over the semantic map via a visual prompt. Experiment results show that our technique can greatly enhance the accuracy of cross-frame spatial reasoning on resource-constrained embodied AI devices, over reasoning tasks with diverse types and complexities.
- Abstract(参考訳): 埋め込みAIが従来の物体検出・認識からロボット操作・動作計画のより高度なタスクに拡張されている場合、映像入力からの視覚的空間的推論は、物体の空間的関係を知覚し、デバイス動作をガイドするために必要である。
しかし、既存の視覚言語モデル(VLM)は、3次元空間情報に関する知識が不足しているため、空間推論において非常に弱い能力を持つ。
本稿では,オンデバイス・インボディード・AIのための新しい推論時間計算手法,すなわち 'emph{MosaicThinker} を提案する。
我々の基本的な考え方は、複数のフレームからの断片化された空間情報をグローバルな意味マップの統一された空間表現に統合し、視覚的なプロンプトを通してVLMの空間推論を導くことである。
実験結果から,資源制約されたAIデバイス上でのクロスフレーム空間推論の精度を,多種多様なタイプや複雑度を持つタスクの推論よりも大幅に向上させることができることがわかった。
関連論文リスト
- Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - REM: Evaluating LLM Embodied Spatial Reasoning through Multi-Frame Trajectories [19.741468026765062]
本稿では,空間推論のための制御可能な3次元環境を用いたベンチマークREM(Reasoning over Embodied Multi-Frame Trajectories)を紹介する。
REMは、オブジェクトの永続性/識別、空間的関係、動的エンボディされた視点における数値的追跡などの重要な側面を体系的に評価する。
評価の結果、最高の性能を示す現在のモデルでは、全体的な性能が期待できるが、人間によって容易に扱える程度の複雑性レベルでは信頼性が低下していることがわかった。
論文 参考訳(メタデータ) (2025-11-30T05:20:22Z) - A Multi-Modal Neuro-Symbolic Approach for Spatial Reasoning-Based Visual Grounding in Robotics [20.82362652411105]
本研究では,パノラマ画像と3次元点雲情報を統合したニューロ・シンボリック・フレームワークを提案する。
提案手法は,ロボット工学および組み込みAIアプリケーションに適した軽量設計を維持しつつ,混在する人間構築環境において,優れた性能と信頼性を示す。
論文 参考訳(メタデータ) (2025-10-30T22:40:23Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - Spatial-ViLT: Enhancing Visual Spatial Reasoning through Multi-Task Learning [1.5604334108839177]
視覚言語モデル(VLM)は高度なマルチモーダル推論を持つが、3Dシーンや複雑なオブジェクト構成の空間的推論では依然として課題に直面している。
本研究では,深度マップ,3次元座標,エッジマップなどの空間的特徴をマルチタスク学習フレームワークを通じて統合する拡張VLMであるSpatialViLTを紹介する。
本研究では,SpatialViLTとMaskedSpatialViLTの2つの変種を提案する。
我々のモデルは、視覚空間推論(VSR)データセットで示されるように、方向、位相、近接関係などの空間的推論のカテゴリで優れている。
論文 参考訳(メタデータ) (2025-10-03T19:04:15Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Enhancing Spatial Reasoning through Visual and Textual Thinking [45.0026939683271]
空間的推論タスクは,2次元空間と3次元空間の空間的関係を推論することを目的としている。
近年,視覚言語モデル (VLM) は急速に発展してきたが,空間推論の課題に苦戦している。
視覚的思考とテキスト思考を同時に行うことによって空間的推論を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T05:24:54Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。