論文の概要: ViSRA: A Video-based Spatial Reasoning Agent for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.10106v1
- Date: Mon, 11 May 2026 07:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.59684
- Title: ViSRA: A Video-based Spatial Reasoning Agent for Multi-modal Large Language Models
- Title(参考訳): ViSRA:マルチモーダル大言語モデルのためのビデオベース空間推論エージェント
- Authors: Tingshu Mou, Jiabo He, Renying Wang, Ce Liu, Hao Yang, Tiehua Zhang, Jingjing Chen, Xingjun Ma,
- Abstract要約: ViSRAは、MLLMの空間的推論機構を調査するためのトレーニング不要のフレームワークである。
これは、専門家モデルからの明示的な空間情報を活用することにより、モジュラーでキュレートされた方法で空間推論を導く。
1)タスク固有のオーバーフィッティングではなく、人間のアライメントと移動可能な3D理解、(2)重い手作業によるキュレーションデータセットとともに、トレーニング後の計算コストが不要である。
- 参考スコア(独自算出の注目度): 38.91282173333918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multi-modal Large Language Models (MLLMs) target 3D spatial intelligence, yet the progress has been largely driven by post-training on curated benchmarks, leaving the inference-time approach relatively underexplored. In this paper, we take a training-free perspective and introduce ViSRA, a human-aligned Video-based Spatial Reasoning Agent, as a framework to probe the spatial reasoning mechanism of MLLMs. ViSRA elicits spatial reasoning in a modular and extensible manner by leveraging explicit spatial information from expert models, enabling a plug-and-play flexible paradigm. ViSRA offers two key advantages: (1) human-aligned and transferable 3D understanding rather than task-specific overfitting; and (2) no post-training computational cost along with heavy manual curation of spatial reasoning datasets. Experimental results demonstrate consistent improvement across a set of MLLMs on both existing benchmarks and unseen 3D spatial reasoning tasks, with ViSRA outperforming baselines by up to a 15.6% and 28.9% absolute margin respectively.
- Abstract(参考訳): 近年のMLLM(Multi-modal Large Language Models)は3次元空間インテリジェンスをターゲットとしているが、その進歩はキュレートされたベンチマークのポストトレーニングによって大きく推し進められ、推論時間のアプローチは比較的過小評価されている。
本稿では, MLLMの空間的推論機構を探索する枠組みとして, 人間の協調型ビデオベース空間推論エージェントViSRAを紹介する。
ViSRAは、専門家モデルからの明示的な空間情報を活用することで、モジュール的で拡張可能な方法で空間推論を可能にし、プラグアンドプレイのフレキシブルパラダイムを実現する。
ViSRAは,(1)タスク固有のオーバーフィッティングではなく,人間の協調的かつ伝達可能な3D理解,(2)空間推論データセットの重い手作業によるキュレーションとともに,学習後の計算コストを伴わない,という2つの大きな利点を提供する。
実験の結果、既存のベンチマークと見当たらない3D空間推論タスクのMLLMのセットで一貫した改善が示され、ViSRAはそれぞれ15.6%と28.9%の絶対マージンでベースラインを上回った。
関連論文リスト
- SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards [37.39035418889281]
構造的空間接地と多段階推論を統合するためにRLで訓練された3D対応MLLMであるSpatialThinkerを紹介する。
このモデルは,タスク関連オブジェクトと空間関係のシーングラフを構築し,密集した空間報酬による回答への推論を行うことにより,人間のような空間知覚をシミュレートする。
論文 参考訳(メタデータ) (2025-11-10T18:52:47Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題である
この制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。
空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文 参考訳(メタデータ) (2025-04-02T15:12:17Z) - Open3D-VQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [38.482463743451625]
本稿では,空から見た複雑な空間関係を推論するMLLMの能力を評価するための新しいベンチマークであるOpen3D-VQAを提案する。
このベンチマークは、7つの一般的な空間的推論タスクにまたがる73kのQAペアで構成されている。
論文 参考訳(メタデータ) (2025-03-14T05:35:38Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。