論文の概要: Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2401.00901v2
- Date: Sat, 30 Mar 2024 02:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:35:39.248374
- Title: Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding
- Title(参考訳): Video-GroundingDINO:オープン語彙の時空間ビデオグラウンド化を目指して
- Authors: Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan,
- Abstract要約: ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
- 参考スコア(独自算出の注目度): 108.79026216923984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video grounding aims to localize a spatio-temporal section in a video corresponding to an input text query. This paper addresses a critical limitation in current video grounding methodologies by introducing an Open-Vocabulary Spatio-Temporal Video Grounding task. Unlike prevalent closed-set approaches that struggle with open-vocabulary scenarios due to limited training data and predefined vocabularies, our model leverages pre-trained representations from foundational spatial grounding models. This empowers it to effectively bridge the semantic gap between natural language and diverse visual content, achieving strong performance in closed-set and open-vocabulary settings. Our contributions include a novel spatio-temporal video grounding model, surpassing state-of-the-art results in closed-set evaluations on multiple datasets and demonstrating superior performance in open-vocabulary scenarios. Notably, the proposed model outperforms state-of-the-art methods in closed-set settings on VidSTG (Declarative and Interrogative) and HC-STVG (V1 and V2) datasets. Furthermore, in open-vocabulary evaluations on HC-STVG V1 and YouCook-Interactions, our model surpasses the recent best-performing models by $4.88$ m_vIoU and $1.83\%$ accuracy, demonstrating its efficacy in handling diverse linguistic and visual concepts for improved video understanding. Our codes will be publicly released.
- Abstract(参考訳): ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時空間区間をローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
限られた訓練データと事前定義された語彙によって、オープン語彙のシナリオに苦しむ一般的なクローズドセットアプローチとは異なり、我々のモデルは基礎的な空間的接地モデルから事前訓練された表現を利用する。
これにより、自然言語と多様な視覚コンテンツの間のセマンティックなギャップを効果的に橋渡しし、クローズドセットとオープンボキャブラリー設定で強力なパフォーマンスを達成することができる。
コントリビューションには、新しい時空間ビデオグラウンドモデル、複数のデータセットに対するクローズドセット評価の最先端結果を上回ること、オープン語彙シナリオにおける優れたパフォーマンスを示すことが含まれる。
提案モデルでは,VidSTG(Declarative and Interrogative)とHC-STVG(V1,V2)データセットのクローズドセット設定において,最先端の手法よりも優れている。
さらに,HC-STVG V1 と YouCook-Interactions のオープン語彙評価では,近年の最高の性能モデルである m_vIoU が4.88$ m_vIoU と $1.83\% の精度を上回り,多種多様な言語的・視覚的概念を扱う上での有効性を示す。
私たちのコードは公開されます。
関連論文リスト
- InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding [50.897923408865026]
InternVideo2は、アクション認識、ハイライト、対話における最先端のパフォーマンスを実現する新しいビデオファンデーションモデル(FM)である。
当社のアプローチでは,マスク付きビデオトークン再構成,クロスモーダルコントラスト学習,トークン予測といった,自己中心あるいは弱中心の学習フレームワークを統一する。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定T2Vモデル上に構築された専用コンポーネントを組み込んだ,VD-ITと呼ばれる新しいフレームワークを提案する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。