論文の概要: VideoMolmo: Spatio-Temporal Grounding Meets Pointing
- arxiv url: http://arxiv.org/abs/2506.05336v2
- Date: Sat, 05 Jul 2025 11:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.381868
- Title: VideoMolmo: Spatio-Temporal Grounding Meets Pointing
- Title(参考訳): VideoMolmo: 時空間の地平線がポインティングにぶつかる
- Authors: Ghazi Shazan Ahmad, Ahmed Heakl, Hanan Gani, Abdelrahman Shaker, Zhiqiang Shen, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
- 参考スコア(独自算出の注目度): 66.19964563104385
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatio-temporal localization is vital for precise interactions across diverse domains, from biological research to autonomous navigation and interactive interfaces. Current video-based approaches, while proficient in tracking, lack the sophisticated reasoning capabilities of large language models, limiting their contextual understanding and generalization. We introduce VideoMolmo, a large multimodal model tailored for fine-grained spatio-temporal pointing conditioned on textual descriptions. Building upon the Molmo architecture, VideoMolmo incorporates a temporal module utilizing an attention mechanism to condition each frame on preceding frames, ensuring temporal consistency. Additionally, our novel temporal mask fusion pipeline employs SAM2 for bidirectional point propagation, significantly enhancing coherence across video sequences. This two-step decomposition, i.e., first using the LLM to generate precise pointing coordinates, then relying on a sequential mask-fusion module to produce coherent segmentation, not only simplifies the task for the language model but also enhances interpretability. Due to the lack of suitable datasets, we curate a comprehensive dataset comprising 72k video-caption pairs annotated with 100k object points. To evaluate the generalization of VideoMolmo, we introduce VPoS-Bench, a challenging out-of-distribution benchmark spanning five real-world scenarios: Cell Tracking, Egocentric Vision, Autonomous Driving, Video-GUI Interaction, and Robotics. We also evaluate our model on Referring Video Object Segmentation (Refer-VOS) and Reasoning VOS tasks. In comparison to existing models, VideoMolmo substantially improves spatio-temporal pointing accuracy and reasoning capability. Our code and models are publicly available at https://github.com/mbzuai-oryx/VideoMolmo.
- Abstract(参考訳): 時空間の局所化は、生物学的研究から自律的なナビゲーションや対話的なインターフェースに至るまで、様々な領域の正確な相互作用に不可欠である。
現在のビデオベースのアプローチはトラッキングに長けているが、大きな言語モデルの洗練された推論能力に欠けており、文脈的理解と一般化が制限されている。
テキスト記述に規定された微細な時空間ポインティングに適した,大規模なマルチモーダルモデルであるVideoMolmoを紹介する。
Molmoアーキテクチャを基盤として、VideoMolmoは、前フレームに各フレームを条件付けるためにアテンションメカニズムを利用するテンポラリモジュールを組み込んで、時間的一貫性を確保する。
さらに,新しい仮面融合パイプラインではSAM2を双方向の点伝播に利用し,ビデオシーケンス間のコヒーレンスを大幅に向上させた。
この2段階分解は、まずLLMを使用して正確なポインティング座標を生成し、次にシーケンシャルマスク融合モジュールを使用してコヒーレントセグメンテーションを生成し、言語モデルのタスクを単純化するだけでなく、解釈可能性を高める。
適切なデータセットが不足しているため,100kのオブジェクトポイントを付加した72kのビデオキャプチャペアからなる包括的データセットをキュレートする。
VideoMolmoの一般化を評価するために、我々は、セルトラッキング、Egocentric Vision、Autonomous Driving、Video-GUI Interaction、ロボティクスの5つの現実シナリオにまたがる、挑戦的なアウト・オブ・ディストリビューションのベンチマークであるVPoS-Benchを紹介した。
また、ビデオオブジェクトセグメンテーション(Refer-VOS)の参照とVOSタスクの推論に関するモデルの評価を行った。
既存のモデルと比較して、VideoMolmoは時空間のポインティング精度と推論能力を大幅に改善する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/VideoMolmo.comで公開されています。
関連論文リスト
- Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。
モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。
よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文 参考訳(メタデータ) (2025-06-28T15:24:05Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - Towards Fine-Grained Video Question Answering [17.582244704442747]
本稿では,MOMA-QAデータセットについて述べる。
地上の真実のシーングラフと時間間隔アノテーションにより、MOMA-QAはきめ細かいビデオ理解のためのモデルを開発するのに最適である。
本稿では、シーングラフ予測器、効率的なフレーム検索器、時間的局所化と微粒化の関係理解のための事前学習された大規模言語モデルを含む、新しいビデオ言語モデルSGVLMを提案する。
論文 参考訳(メタデータ) (2025-03-10T01:02:01Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。