論文の概要: GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2604.02093v1
- Date: Thu, 02 Apr 2026 14:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.853403
- Title: GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding
- Title(参考訳): GroundVTS:ビデオ時間グラウンドのためのマルチモーダル大言語モデルの視覚的トケサンプリング
- Authors: Rong Fan, Kaiyan Xiao, Minghao Zhu, Liuyi Wang, Kai Dai, Zhao Yang,
- Abstract要約: ビデオ時間グラウンド(VTG)はビデオにおいて重要なタスクであり、大規模な言語モデル(Vid-LLM)を広範囲のアプリケーションに拡張するための重要な能力を理解する。
既存のVid-LLMは、一様フレームサンプリングに頼って映像情報を抽出し、キーフレームの疎分布と重要な時間的手がかりの喪失をもたらす。
我々は,最も情報性の高い時間セグメントに着目したVid-LLMアーキテクチャであるGroundVTSを提案する。
- 参考スコア(独自算出の注目度): 8.196520511153368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding (VTG) is a critical task in video understanding and a key capability for extending video large language models (Vid-LLMs) to broader applications. However, existing Vid-LLMs rely on uniform frame sampling to extract video information, resulting in a sparse distribution of key frames and the loss of crucial temporal cues. To address this limitation, we propose Grounded Visual Token Sampling (GroundVTS), a Vid-LLM architecture that focuses on the most informative temporal segments. GroundVTS employs a fine-grained, query-guided mechanism to filter visual tokens before feeding them into the LLM, thereby preserving essential spatio-temporal information and maintaining temporal coherence. Futhermore, we introduce a progressive optimization strategy that enables the LLM to effectively adapt to the non-uniform distribution of visual features, enhancing its ability to model temporal dependencies and achieve precise video localization. We comprehensively evaluate GroundVTS on three standard VTG benchmarks, where it outperforms existing methods, achieving a 7.7-point improvement in mIoU for moment retrieval and 12.0-point improvement in mAP for highlight detection. Code is available at https://github.com/Florence365/GroundVTS.
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は、ビデオ理解において重要なタスクであり、ビデオ大言語モデル(Vid-LLM)を広範囲のアプリケーションに拡張するための重要な機能である。
しかし、既存のVid-LLMは一様フレームサンプリングに頼って映像情報を抽出し、キーフレームの分散と重要な時間的手がかりの欠如をもたらす。
この制限に対処するために、最も情報に富む時間セグメントに焦点をあてたVid-LLMアーキテクチャであるGroundVTS(GroundVTS)を提案する。
GroundVTSは、精細でクエリ誘導されたメカニズムを使用して、LCMに入力する前に視覚トークンをフィルタリングし、重要な時空間情報を保持し、時間的コヒーレンスを維持する。
さらに,LLMが視覚特徴の非一様分布に効果的に適応できるプログレッシブ最適化戦略を導入し,時間的依存をモデル化し,正確な映像のローカライゼーションを実現する能力を向上させる。
我々は,3つの標準VTGベンチマークでGroundVTSを総合的に評価し,既存の手法より優れており,モーメント検索におけるmIoUの7.7ポイント,ハイライト検出のためのmAPの12.0ポイント改善を実現している。
コードはhttps://github.com/Florence365/GroundVTSで入手できる。
関連論文リスト
- TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Temporal Preference Optimization for Long-Form Video Understanding [63.196246578583136]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - FlashVTG: Feature Layering and Adaptive Score Handling Network for Video Temporal Grounding [25.21011724370177]
テキスト誘導ビデオ時間グラウンド(VTG)は、テキスト記述に基づいて、関連セグメントを未編集ビデオにローカライズすることを目的としている。
本稿では,TFL(Temporal Feature Layering)モジュールとASR(Adaptive Score Refinement)モジュールを備えたフレームワークであるFlashVTGを紹介する。
FlashVTGは、Moment Retrieval(MR)とHighlight Detection(HD)の両方で広く採用されている4つのデータセット上で、最先端のパフォーマンスを達成する
論文 参考訳(メタデータ) (2024-12-18T02:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。