論文の概要: SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability
- arxiv url: http://arxiv.org/abs/2503.13983v1
- Date: Tue, 18 Mar 2025 07:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:59.037660
- Title: SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability
- Title(参考訳): SpaceVLLM:時空間ビデオグラウンド機能付きマルチモーダル大言語モデル
- Authors: Jiankang Wang, Zhihan zhang, Zhihang Liu, Yang Li, Jiannan Ge, Hongtao Xie, Yongdong Zhang,
- Abstract要約: 大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
時間的ビデオグラウンドティングを具備したMLLMであるSpaceLMを紹介する。
- 参考スコア(独自算出の注目度): 58.46310813774538
- License:
- Abstract: Multimodal large language models (MLLMs) have made remarkable progress in either temporal or spatial localization. However, they struggle to perform spatio-temporal video grounding. This limitation stems from two major challenges. Firstly, it is difficult to extract accurate spatio-temporal information of each frame in the video. Secondly, the substantial number of visual tokens makes it challenging to precisely map visual tokens of each frame to their corresponding spatial coordinates. To address these issues, we introduce SpaceVLLM, a MLLM endowed with spatio-temporal video grounding capability. Specifically, we adopt a set of interleaved Spatio-Temporal Aware Queries to capture temporal perception and dynamic spatial information. Moreover, we propose a Query-Guided Space Decoder to establish a corresponding connection between the queries and spatial coordinates. Additionally, due to the lack of spatio-temporal datasets, we construct the Unified Spatio-Temporal Grounding (Uni-STG) dataset, comprising 480K instances across three tasks. This dataset fully exploits the potential of MLLM to simultaneously facilitate localization in both temporal and spatial dimensions. Extensive experiments demonstrate that SpaceVLLM achieves the state-of-the-art performance across 11 benchmarks covering temporal, spatial, spatio-temporal and video understanding tasks, highlighting the effectiveness of our approach. Our code, datasets and model will be released.
- Abstract(参考訳): 多モーダル大言語モデル(MLLM)は時間的あるいは空間的局所化において顕著な進歩を遂げている。
しかし、彼らは時空間ビデオグラウンドを行うのに苦労している。
この制限は2つの大きな課題に起因している。
まず,ビデオ中の各フレームの正確な時空間情報を抽出することは困難である。
第二に、かなりの数の視覚トークンは、各フレームの視覚トークンを対応する空間座標に正確にマッピングすることを困難にしている。
これらの問題に対処するために、時空間ビデオグラウンド機能を備えたMLLMであるSpaceVLLMを紹介する。
具体的には、時間的知覚と動的空間情報を取得するために、インターリーブされた時空間アウェアクエリのセットを採用する。
さらに,クエリと空間座標の対応関係を確立するために,クエリガイド付き空間デコーダを提案する。
さらに、時空間データセットの欠如により、3つのタスクにまたがる480KインスタンスからなるUnified Spatio-Temporal Grounding(Uni-STG)データセットを構築した。
このデータセットはMLLMの可能性を完全に活用し、時間次元と空間次元の両方での局所化を同時に促進する。
大規模な実験により、SpaceVLLMは、時間的、空間的、時空間的、時空間的、ビデオ理解タスクをカバーする11のベンチマークで最先端のパフォーマンスを実現し、我々のアプローチの有効性を強調した。
私たちのコード、データセット、モデルがリリースされます。
関連論文リスト
- LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding [29.42797944919497]
LLaVA-STは空間的・時間的マルチモーダル理解のためのMLLMである。
LLaVA-STでは,座標の特別なトークンを視覚空間に埋め込んだLanguage-Aligned Positional Embeddingを提案する。
また、時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
論文 参考訳(メタデータ) (2025-01-14T17:58:12Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning [8.707819647492467]
本稿では,空間的,時間的,動的空間時間的スケールを含む包括的特徴を学習することに着目し,CLIPを映像認識に適用するフレームワークを提案する。
我々は、教師付きビデオ認識、少数ショットビデオ認識、ゼロショット認識タスクにおいて広範な実験を行った。
提案手法の有効性を実証し,特にOmniCLIPは16ショット設定でHMDB51で74.30%の精度でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2024-08-12T13:55:46Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - How Can Large Language Models Understand Spatial-Temporal Data? [12.968952073740796]
本稿では,時空間予測に大規模言語モデルを活用する革新的なアプローチSTG-LLMを紹介する。
1 STG-Tokenizer: この空間時間グラフトークンは、複雑なグラフデータを、空間的および時間的関係の両方を捉える簡潔なトークンに変換する; 2) STG-Adapter: 線形符号化層と復号層からなるこの最小限のアダプタは、トークン化されたデータとLCMの理解のギャップを埋める。
論文 参考訳(メタデータ) (2024-01-25T14:03:15Z) - LLM4DyG: Can Large Language Models Solve Spatial-Temporal Problems on Dynamic Graphs? [56.85995048874959]
本稿では,大規模言語モデルの動的グラフ上での時空間理解能力を評価することを提案する。
我々は、異なるデータ生成装置、データ統計、プロンプト技術、LLMがモデル性能に与える影響を分析する実験を行う。
最後に, LLM の時空間理解能力を高めるために, 動的グラフ上の LLM に対する Disentangled Spatial-Temporal Thoughts (DST2) を提案する。
論文 参考訳(メタデータ) (2023-10-26T02:37:43Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。