論文の概要: SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs
- arxiv url: http://arxiv.org/abs/2603.12382v1
- Date: Thu, 12 Mar 2026 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.732346
- Title: SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs
- Title(参考訳): SPARROW:Pixel-Grounded Video MLLMにおける空間的精度と時間的参照一貫性の学習
- Authors: Mohamad Alansari, Naufal Suryanto, Divya Velayudhan, Sajid Javed, Naoufel Werghi, Muzammal Naseer,
- Abstract要約: SPARROW(SPARROW)は、2つのキーコンポーネントを通して空間的精度と時間的安定性を統一するビデオMLLMである。
SPARROWは、30,646のビデオと45,231のQ&Aペアからなる、キュレートされた参照ビデオデータセットによってサポートされている。
6つのベンチマークで一貫したゲインを提供し、RVOSでは+8.9 J&F、ビジュアルグラウンドでは+5 mIoU、GCGでは+5.4 CLAIRに改善された。
- 参考スコア(独自算出の注目度): 39.73103140338364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have advanced from image-level reasoning to pixel-level grounding, but extending these capabilities to videos remains challenging as models must achieve spatial precision and temporally consistent reference tracking. Existing video MLLMs often rely on a static segmentation token ([SEG]) for frame-wise grounding, which provides semantics but lacks temporal context, causing spatial drift, identity switches, and unstable initialization when objects move or reappear. We introduce SPARROW, a pixel-grounded video MLLM that unifies spatial accuracy and temporal stability through two key components: (i) Target-Specific Tracked Features (TSF), which inject temporally aligned referent cues during training, and (ii) a dual-prompt design that decodes box ([BOX]) and segmentation ([SEG]) tokens to fuse geometric priors with semantic grounding. SPARROW is supported by a curated referential video dataset of 30,646 videos and 45,231 Q&A pairs and operates end-to-end without external detectors via a class-agnostic SAM2-based proposer. Integrated into three recent open-source video MLLMs (UniPixel, GLUS, and VideoGLaMM), SPARROW delivers consistent gains across six benchmarks, improving up to +8.9 J&F on RVOS, +5 mIoU on visual grounding, and +5.4 CLAIR on GCG. These results demonstrate that SPARROW substantially improves referential stability, spatial precision, and temporal coherence in pixel-grounded video understanding. Project page: https://risys-lab.github.io/SPARROW
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、画像レベルの推論からピクセルレベルのグラウンド化へと進歩してきたが、モデルが空間的精度と時間的に一貫した参照追跡を達成する必要があるため、これらの能力をビデオに拡張することは依然として困難である。
既存のビデオMLLMは、フレームワイドグラウンドに静的セグメンテーショントークン([SEG])を頼りにしており、セマンティクスを提供するが、時間的コンテキストに欠け、空間的ドリフト、アイデンティティスイッチ、オブジェクトの移動や再出現時に不安定な初期化を引き起こす。
SPARROW(SPARROW)は、空間的精度と時間的安定性を2つのキーコンポーネントで統一するビデオMLLMである。
一 訓練中に時間的に整列した参照手がかりを注入する目標特定追跡特徴(TSF)
(ii)ボックス([BOX])とセグメンテーション([SEG])トークンをデコードして、幾何学的先行をセマンティックグラウンドで融合するデュアルプロンプト設計。
SPARROWは、30,646のビデオと45,231のQ&Aペアのキュレートされた参照ビデオデータセットによってサポートされており、クラスに依存しないSAM2ベースのプロポーザルを介して外部検出器なしでエンドツーエンドで動作する。
最新の3つのオープンソースビデオMLLM(UniPixel、GLUS、VideoGLaMM)に統合され、SPARROWは6つのベンチマークで一貫したゲインを提供し、RVOSでは+8.9 J&F、ビジュアルグラウンドでは+5 mIoU、GCGでは+5.4 CLAIRに改善した。
これらの結果から,SPARROWは画像理解における参照安定性,空間精度,時間的コヒーレンスを大幅に改善することが示された。
プロジェクトページ:https://risys-lab.github.io/SPARROW
関連論文リスト
- 1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning [53.28271278708241]
本稿では,DEViL の略である Detector-Empowered Video LLM を提案する。
DEViLはオープンボキャブラリ検出器(OVD)とビデオLLMを結合する
単に空間的なプロンプトやセグメンタスイッチとして機能するトークンとは異なり、RTTは制御信号とOVDのテキスト埋め込みの置き換えの両方として機能する。
論文 参考訳(メタデータ) (2025-12-07T06:11:15Z) - Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding [47.400649582392255]
大規模言語モデル(MLLM)を用いて,STVGのゼロショットソリューションを探索する。
STVGのためのMLLMベースのゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:35:50Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。