論文の概要: UniversalVTG: A Universal and Lightweight Foundation Model for Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2604.08522v1
- Date: Thu, 09 Apr 2026 17:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.062847
- Title: UniversalVTG: A Universal and Lightweight Foundation Model for Video Temporal Grounding
- Title(参考訳): UniversalVTG:ビデオ時間グラウンドのためのユニバーサルで軽量なファンデーションモデル
- Authors: Joungbin An, Agrim Jain, Kristen Grauman,
- Abstract要約: ビデオ時間グラウンド(VTG)は通常、ドメインやクエリスタイル間での転送が不十分なデータセット固有のモデルに対処される。
大規模クロスデータセット事前学習で訓練された単一のVTGモデルであるUniversalVTGを提案する。
- 参考スコア(独自算出の注目度): 46.36397337493086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding (VTG) is typically tackled with dataset-specific models that transfer poorly across domains and query styles. Recent efforts to overcome this limitation have adapted large multimodal language models (MLLMs) to VTG, but their high compute cost and limited video context still hinder long-video grounding. We instead scale unified supervision while keeping the model lightweight. We present UniversalVTG, a single VTG model trained with large-scale cross-dataset pretraining. An offline Query Unifier canonicalizes heterogeneous query formats into a shared declarative space, reducing linguistic mismatch and preventing the negative transfer observed under naïve joint training. Combined with an efficient grounding head, UniversalVTG scales to long, untrimmed videos. Across diverse benchmarks-GoalStep-StepGrounding, Ego4D-NLQ, TACoS, Charades-STA, and ActivityNet-Captions-one UniversalVTG checkpoint achieves state-of-the-art performance versus dedicated VTG models. Moreover, despite being $>100\times$ smaller than recent MLLM-based approaches, UniversalVTG matches or exceeds their accuracy on multiple benchmarks, offering a practical alternative to parameter-heavy MLLMs.
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は通常、ドメインやクエリスタイル間での転送が不十分なデータセット固有のモデルに対処される。
この制限を克服するための最近の取り組みは、大規模なマルチモーダル言語モデル(MLLM)をVTGに適応させたが、その高い計算コストと制限されたビデオコンテキストは、長いビデオのグラウンドングを妨げている。
その代わり、モデルを軽量にしながら、統一的な監視をスケールします。
大規模クロスデータセット事前学習で訓練された単一のVTGモデルであるUniversalVTGを提案する。
オフラインクエリ統一器は、異種クエリフォーマットを共通宣言空間に分類し、言語的ミスマッチを減らし、ナビブ共同訓練で観察される負の転送を防止する。
効率的なグラウンドヘッドと組み合わせることで、UniversalVTGは長い、トリミングされていないビデオにスケールする。
さまざまなベンチマーク-GoalStep-StepGrounding、Ego4D-NLQ、TACoS、Charades-STA、ActivityNet-Captions-one UniversalVTGチェックポイントは、最先端のパフォーマンスと専用のVTGモデルを達成する。
さらに、最近のMLLMベースのアプローチよりも100\times$が小さいにもかかわらず、UniversalVTGは複数のベンチマークで一致または精度を上回り、パラメータ重MLLMの実用的な代替手段を提供する。
関連論文リスト
- SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding [5.9095311593289575]
SlotVTGは、MLLMを最小限のコストで、オブジェクト中心の、入力基底の視覚的推論に向けるフレームワークである。
我々のアプローチは、最小限のオーバーヘッドで競合するIn-Domain(ID)性能を維持しながら、OODロバスト性を大幅に改善します。
論文 参考訳(メタデータ) (2026-03-26T17:59:31Z) - TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding [13.025856914576673]
Video Temporal Groundingは、自然言語クエリに対応するビデオクリップをローカライズすることを目的としている。
既存のTransformerベースの手法は、しばしば冗長な注意と準最適マルチモーダルアライメントに悩まされる。
MLVTGは,MambaAligner と LLMRefiner の2つの重要なモジュールを統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-10T07:20:12Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval [60.454321238910474]
最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T03:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。