論文の概要: Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video
Grounding
- arxiv url: http://arxiv.org/abs/2401.00901v1
- Date: Sun, 31 Dec 2023 13:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:22:07.306772
- Title: Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video
Grounding
- Title(参考訳): Video-GroundingDINO:オープン語彙の時空間ビデオグラウンド化を目指して
- Authors: Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang, Fahad
Shahbaz Khan
- Abstract要約: ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
- 参考スコア(独自算出の注目度): 116.71519261521753
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video grounding aims to localize a spatio-temporal section in a video
corresponding to an input text query. This paper addresses a critical
limitation in current video grounding methodologies by introducing an
Open-Vocabulary Spatio-Temporal Video Grounding task. Unlike prevalent
closed-set approaches that struggle with open-vocabulary scenarios due to
limited training data and predefined vocabularies, our model leverages
pre-trained representations from foundational spatial grounding models. This
empowers it to effectively bridge the semantic gap between natural language and
diverse visual content, achieving strong performance in closed-set and
open-vocabulary settings. Our contributions include a novel spatio-temporal
video grounding model, surpassing state-of-the-art results in closed-set
evaluations on multiple datasets and demonstrating superior performance in
open-vocabulary scenarios. Notably, the proposed model outperforms
state-of-the-art methods in closed-set settings on VidSTG (Declarative and
Interrogative) and HC-STVG (V1 and V2) datasets. Furthermore, in
open-vocabulary evaluations on HC-STVG V1 and YouCook-Interactions, our model
surpasses the recent best-performing models by $4.26$ m_vIoU and $1.83\%$
accuracy, demonstrating its efficacy in handling diverse linguistic and visual
concepts for improved video understanding. Our codes will be released at
https://github.com/TalalWasim/Video-GroundingDINO.
- Abstract(参考訳): ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時空間区間をローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
限定的なトレーニングデータと事前定義された語彙によって、オープンボキャブラリーシナリオに苦しむ一般的なクローズドセットアプローチとは異なり、本モデルは基礎的な空間的接地モデルから事前学習された表現を活用する。
これにより、自然言語と多様な視覚コンテンツの間のセマンティックギャップを効果的に橋渡しし、クローズドセットとオープンボキャブラリ設定で強力なパフォーマンスを達成することができる。
コントリビューションには、新しい時空間ビデオグラウンドモデル、複数のデータセットに対するクローズドセット評価の最先端結果を上回ること、オープン語彙シナリオにおける優れたパフォーマンスを示すことが含まれる。
提案モデルでは,VidSTG(Declarative and Interrogative)とHC-STVG(V1,V2)データセットのクローズドセット設定において,最先端の手法よりも優れている。
さらに、HC-STVG V1 と YouCook-Interactions のオープン語彙評価では、我々のモデルは最近の最高のパフォーマンスモデルよりも4.26$ m_vIoU と $1.83\% の精度を上回り、多様な言語的および視覚的概念をビデオ理解の改善のために扱えることを示す。
私たちのコードはhttps://github.com/talalwasim/video-groundingdinoでリリースされる。
関連論文リスト
- ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。