論文の概要: VideoMolmo: Spatio-Temporal Grounding Meets Pointing
- arxiv url: http://arxiv.org/abs/2506.05336v1
- Date: Thu, 05 Jun 2025 17:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.900589
- Title: VideoMolmo: Spatio-Temporal Grounding Meets Pointing
- Title(参考訳): VideoMolmo: 時空間の地平線がポインティングにぶつかる
- Authors: Ghazi Shazan Ahmad, Ahmed Heakl, Hanan Gani, Abdelrahman Shaker, Zhiqiang Shen, Ranjay Krishna, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
- 参考スコア(独自算出の注目度): 73.25506085339252
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatio-temporal localization is vital for precise interactions across diverse domains, from biological research to autonomous navigation and interactive interfaces. Current video-based approaches, while proficient in tracking, lack the sophisticated reasoning capabilities of large language models, limiting their contextual understanding and generalization. We introduce VideoMolmo, a large multimodal model tailored for fine-grained spatio-temporal pointing conditioned on textual descriptions. Building upon the Molmo architecture, VideoMolmo incorporates a temporal module utilizing an attention mechanism to condition each frame on preceding frames, ensuring temporal consistency. Additionally, our novel temporal mask fusion pipeline employs SAM2 for bidirectional point propagation, significantly enhancing coherence across video sequences. This two-step decomposition, i.e., first using the LLM to generate precise pointing coordinates, then relying on a sequential mask-fusion module to produce coherent segmentation, not only simplifies the task for the language model but also enhances interpretability. Due to the lack of suitable datasets, we curate a comprehensive dataset comprising 72k video-caption pairs annotated with 100k object points. To evaluate the generalization of VideoMolmo, we introduce VPoS-Bench, a challenging out-of-distribution benchmark spanning five real-world scenarios: Cell Tracking, Egocentric Vision, Autonomous Driving, Video-GUI Interaction, and Robotics. We also evaluate our model on Referring Video Object Segmentation (Refer-VOS) and Reasoning VOS tasks. In comparison to existing models, VideoMolmo substantially improves spatio-temporal pointing accuracy and reasoning capability. Our code and models are publicly available at https://github.com/mbzuai-oryx/VideoMolmo.
- Abstract(参考訳): 時空間の局所化は、生物学的研究から自律的なナビゲーションや対話的なインターフェースに至るまで、様々な領域の正確な相互作用に不可欠である。
現在のビデオベースのアプローチはトラッキングに長けているが、大きな言語モデルの洗練された推論能力に欠けており、文脈的理解と一般化が制限されている。
テキスト記述に規定された微細な時空間ポインティングに適した,大規模なマルチモーダルモデルであるVideoMolmoを紹介する。
Molmoアーキテクチャを基盤として、VideoMolmoは、前フレームに各フレームを条件付けるためにアテンションメカニズムを利用するテンポラリモジュールを組み込んで、時間的一貫性を確保する。
さらに,新しい仮面融合パイプラインではSAM2を双方向の点伝播に利用し,ビデオシーケンス間のコヒーレンスを大幅に向上させた。
この2段階分解は、まずLLMを使用して正確なポインティング座標を生成し、次にシーケンシャルマスク融合モジュールを使用してコヒーレントセグメンテーションを生成し、言語モデルのタスクを単純化するだけでなく、解釈可能性を高める。
適切なデータセットが不足しているため,100kのオブジェクトポイントを付加した72kのビデオキャプチャペアからなる包括的データセットをキュレートする。
VideoMolmoの一般化を評価するために、我々は、セルトラッキング、Egocentric Vision、Autonomous Driving、Video-GUI Interaction、ロボティクスの5つの現実シナリオにまたがる、挑戦的なアウト・オブ・ディストリビューションのベンチマークであるVPoS-Benchを紹介した。
また、ビデオオブジェクトセグメンテーション(Refer-VOS)の参照とVOSタスクの推論に関するモデルの評価を行った。
既存のモデルと比較して、VideoMolmoは時空間のポインティング精度と推論能力を大幅に改善する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/VideoMolmo.comで公開されています。
関連論文リスト
- SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - Towards Fine-Grained Video Question Answering [17.582244704442747]
本稿では,MOMA-QAデータセットについて述べる。
地上の真実のシーングラフと時間間隔アノテーションにより、MOMA-QAはきめ細かいビデオ理解のためのモデルを開発するのに最適である。
本稿では、シーングラフ予測器、効率的なフレーム検索器、時間的局所化と微粒化の関係理解のための事前学習された大規模言語モデルを含む、新しいビデオ言語モデルSGVLMを提案する。
論文 参考訳(メタデータ) (2025-03-10T01:02:01Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。