論文の概要: OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2604.25276v1
- Date: Tue, 28 Apr 2026 06:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.738315
- Title: OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding
- Title(参考訳): OmniVTG: オープンワールドビデオ時間グラウンドのための大規模データセットとトレーニングパラダイム
- Authors: Minghang Zheng, Zihao Yin, Yi Yang, Yuxin Peng, Yang Liu,
- Abstract要約: Video Temporal Grounding (VTG)は、データセットの規模やセマンティックな多様性が制限されているため、オープンワールド設定で苦労している。
オープンワールドVTGのための新しい大規模データセットであるOmniVTGを紹介する。
MLLMをトレーニングして、まず予測を行い、その理解能力を使用して、独自の予測を反映し、洗練します。
- 参考スコア(独自算出の注目度): 55.29748680163419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Temporal Grounding (VTG), the task of localizing video segments from text queries, struggles in open-world settings due to limited dataset scale and semantic diversity, causing performance gaps between common and rare concepts. To overcome these limitations, we introduce OmniVTG, a new large-scale dataset for open-world VTG, coupled with a Self-Correction Chain-of-Thought (CoT) training paradigm designed to enhance the grounding capabilities of Multimodal Large Language Models (MLLMs). Our OmniVTG is constructed via a novel Semantic Coverage Iterative Expansion pipeline, which first identifies gaps in the vocabulary of existing datasets and collects videos that are highly likely to contain these target concepts. For high-quality annotation, we leverage the insight that modern MLLMs excel at dense captioning more than direct grounding and design a caption-centric data engine to prompt MLLMs to generate dense, timestamped descriptions. Beyond the dataset, we observe that simple supervised finetuning (SFT) is insufficient, as a performance gap between rare and common concepts still persists. We find that MLLMs' video understanding ability significantly surpasses their direct grounding ability. Based on this, we propose a Self-Correction Chain-of-Thought (CoT) training paradigm. We train the MLLM to first predict, then use its understanding capabilities to reflect on and refine its own predictions. This capability is instilled via a three-stage pipeline of SFT, CoT finetuning, and reinforcement learning. Extensive experiments show our approach not only excels at open-world grounding in our OmniVTG dataset but also achieves state-of-the-art zero-shot performance on four existing VTG benchmarks. Code is available at https://github.com/oceanflowlab/OmniVTG.
- Abstract(参考訳): テキストクエリからビデオセグメントをローカライズするタスクであるVTG(Video Temporal Grounding)は、データセットスケールの制限とセマンティックな多様性のために、オープンワールド設定で苦労し、一般的な概念と稀な概念の間にパフォーマンスギャップを生じさせる。
これらの制限を克服するために、オープンワールドVTGのための新しい大規模データセットであるOmniVTGと、マルチモーダル大規模言語モデル(MLLM)の基盤能力を高めるために設計されたセルフコレクレーション・チェーン・オブ・ソート(CoT)トレーニングパラダイムを導入する。
私たちのOmniVTGは、Semantic Coverage Iterative Expansionパイプラインによって構築されています。
高品質なアノテーションでは,従来のMLLMが直接接地以上の高密度キャプションで優れているという知見を利用して,MLLMに高密度でタイムスタンプのある記述を生成するよう促すキャプション中心のデータエンジンを設計する。
データセット以外には、まれな概念と一般的な概念の間のパフォーマンスギャップが依然として持続しているため、単純な教師付き微調整(SFT)が不十分であることを示す。
MLLMの映像理解能力は直接接地能力をはるかに上回っていることがわかった。
そこで本研究では,CoT(Self-Correction Chain-of-Thought)トレーニングパラダイムを提案する。
MLLMをトレーニングして、まず予測を行い、その理解能力を使用して、独自の予測を反映し、洗練します。
この能力は、SFT、CoTファインタニング、強化学習の3段階パイプラインを介して注入される。
大規模な実験では、OmniVTGデータセットのオープンワールドグラウンドに優れるだけでなく、4つの既存のVTGベンチマークで最先端のゼロショットパフォーマンスを実現している。
コードはhttps://github.com/oceanflowlab/OmniVTGで入手できる。
関連論文リスト
- UniversalVTG: A Universal and Lightweight Foundation Model for Video Temporal Grounding [46.36397337493086]
ビデオ時間グラウンド(VTG)は通常、ドメインやクエリスタイル間での転送が不十分なデータセット固有のモデルに対処される。
大規模クロスデータセット事前学習で訓練された単一のVTGモデルであるUniversalVTGを提案する。
論文 参考訳(メタデータ) (2026-04-09T17:57:09Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding [13.295759874474767]
視覚言語モデル(VLM)に適した新しいフレームワークViSpec(ViSpec)を紹介する。
ViSpecは画像トークンをコンパクトな表現に圧縮するために軽量な視覚適応モジュールを使用している。
我々のトレーニング戦略は、ターゲットモデルの隠れた状態への直接アクセスを利用するドラフトモデルのリスクを軽減する。
論文 参考訳(メタデータ) (2025-09-17T11:28:58Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。