論文の概要: Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching
- arxiv url: http://arxiv.org/abs/2606.03577v1
- Date: Tue, 02 Jun 2026 12:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.00225
- Title: Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching
- Title(参考訳): 広基線マッチングによるMLLMの複素空間推論
- Authors: Hao Zhong, Muzhi Zhu, Shenyan Zeng, Anzhou Li, Cong Chen, Hua Geng, Duochao Shi, Wentao Ye, Tao Lin, Hao Chen, Chunhua Shen,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の空間的推論におけるワイドベースラインマッチングは困難なテストベッドである
ReasonMatch-Benchは, 室内, 屋外, オブジェクト中心のシナリオにまたがって, 視点変位と粒度の一致によって階層化されたベンチマークである。
大規模ビデオ3Dコーパスからワイドベースラインビューペアを自動的に抽出するスケーラブルなデータ生成パイプラインを構築した。
- 参考スコア(独自算出の注目度): 47.51089761663848
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained perception, and occlusion reasoning, making it a challenging testbed for spatial reasoning in multimodal large language models (MLLMs) deployed in physical environments. However, current MLLMs lack systematic evaluation and training frameworks for these capabilities. We introduce ReasonMatch-Bench, a benchmark stratified by viewpoint displacement and matching granularity across indoor, outdoor, and object-centric scenarios, and show that current MLLMs still struggle with fine-grained wide-baseline correspondence: on a difficult 90-sample subset, human annotators achieve 84.0 F1, while the best existing baseline reaches 37.2. To bridge this gap, we build a scalable data-generation pipeline that automatically extracts wide-baseline view pairs from large-scale video-3D corpora, including RGB-D videos and SfM reconstructions, yielding diverse and verifiable supervision. We further propose Dynamic Correspondence Reinforcement Learning (DCRL), which combines Image-Level Viewpoint Progression and Point-Level Correspondence Curriculum to improve WBM training through verifiable rewards without explicit CoT supervision. Extensive experiments show that DCRL substantially improves ReasonMatch-Bench and transfers to related spatial benchmarks, while maintaining general visual understanding performance with modest gains on several benchmarks.
- Abstract(参考訳): ワイドベースラインマッチング(WBM)は、幾何学的理解、視点の変化、きめ細かな知覚、および排他的推論を統合することを必要とし、物理環境に展開された多モーダル大言語モデル(MLLM)における空間的推論のための挑戦的なテストベッドである。
しかし、現在のMLLMにはこれらの機能に対する体系的な評価とトレーニングのフレームワークがない。
ReasonMatch-Benchは、室内、屋外、オブジェクト中心のシナリオにまたがって、視点変位と粒度の一致によって成層化したベンチマークであり、現在のMLLMが依然として細粒度の広義の対応に苦慮していることを示す。
このギャップを埋めるため、我々はRGB-DビデオやSfM再構成を含む大規模ビデオ3Dコーパスからワイドベースラインビューペアを自動的に抽出するスケーラブルなデータ生成パイプラインを構築し、多種多様かつ検証可能な監視を実現する。
さらに,イメージレベル視点進行とポイントレベル対応カリキュラムを組み合わせた動的対応強化学習(DCRL)を提案する。
大規模な実験により、DCRLはReasonMatch-Benchを著しく改善し、関連する空間ベンチマークに転送する一方で、いくつかのベンチマークではモデストゲインで一般的な視覚的理解性能を維持していることが示された。
関連論文リスト
- CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark [77.29150285469736]
空間知能は、単一視点の知覚と理性を超えるためにマルチモーダルな大言語モデル(MLLM)を必要とする。
CrossView Suiteは、CrossViewSet、CrossViewBench、CrossViewerの3つの協調コンポーネントで開発しています。
提案手法は, 適応型空間領域トークンーザを備え, 微細なオブジェクト表現をキャプチャし, マルチビューオブジェクトを明示的にアライメントする。
論文 参考訳(メタデータ) (2026-05-18T16:31:31Z) - HM-Bench: A Comprehensive Benchmark for Multimodal Large Language Models in Hyperspectral Remote Sensing [22.804236694410367]
マルチモーダルな大言語モデル(MLLM)は、自然画像の理解において大きな進歩を遂げてきたが、ハイパースペクトル画像(HSI)よりも知覚し、推論する能力はいまだ研究されていない。
HSI理解においてMLLMを評価するために設計された最初のベンチマークであるHyperspectral Multimodal Benchmark (HM-Bench)を紹介する。
基本認識からスペクトル推論まで,13のタスクカテゴリにまたがる19,337の質問応答対の大規模データセットをキュレートする。
論文 参考訳(メタデータ) (2026-04-10T02:47:32Z) - SpatialMosaic: A Multiview VLM Dataset for Partial Visibility [25.874299974251965]
本稿では,現実的な空間推論QAを構築する,スケーラブルなマルチビューデータ生成とアノテーションパイプラインを提案する。
本研究では,現実的かつ困難なシナリオ下での多視点空間推論評価のためのベンチマークであるSpatialMosaic-Benchを紹介する。
また、3次元再構成モデルを視覚言語モデル内の幾何学エンコーダとして統合するハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
論文 参考訳(メタデータ) (2025-12-29T10:48:54Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。
我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。
Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。