論文の概要: Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection
- arxiv url: http://arxiv.org/abs/2504.14553v1
- Date: Sun, 20 Apr 2025 09:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:49:12.137958
- Title: Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection
- Title(参考訳): Grounding-MD: オープンワールドモーメント検出のためのビデオ言語事前学習
- Authors: Weijun Zhuang, Qizhang Li, Xin Li, Ming Liu, Xiaopeng Hong, Feng Gao, Fan Yang, Wangmeng Zuo,
- Abstract要約: Grounding-MDは、オープンワールドのモーメント検出に適した、革新的なビデオ言語事前学習フレームワークである。
我々のフレームワークは、構造化されたプロンプト機構を通じて、任意の数のオープンな自然言語クエリを組み込む。
Grounding-MDは特異なセマンティック表現学習能力を示し、多種多様な複雑なクエリ条件を効果的に処理する。
- 参考スコア(独自算出の注目度): 67.70328796057466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Detection and Moment Retrieval constitute two pivotal tasks in video understanding, focusing on precisely localizing temporal segments corresponding to specific actions or events. Recent advancements introduced Moment Detection to unify these two tasks, yet existing approaches remain confined to closed-set scenarios, limiting their applicability in open-world contexts. To bridge this gap, we present Grounding-MD, an innovative, grounded video-language pre-training framework tailored for open-world moment detection. Our framework incorporates an arbitrary number of open-ended natural language queries through a structured prompt mechanism, enabling flexible and scalable moment detection. Grounding-MD leverages a Cross-Modality Fusion Encoder and a Text-Guided Fusion Decoder to facilitate comprehensive video-text alignment and enable effective cross-task collaboration. Through large-scale pre-training on temporal action detection and moment retrieval datasets, Grounding-MD demonstrates exceptional semantic representation learning capabilities, effectively handling diverse and complex query conditions. Comprehensive evaluations across four benchmark datasets including ActivityNet, THUMOS14, ActivityNet-Captions, and Charades-STA demonstrate that Grounding-MD establishes new state-of-the-art performance in zero-shot and supervised settings in open-world moment detection scenarios. All source code and trained models will be released.
- Abstract(参考訳): 時間的行動検出とモーメント検索は、ビデオ理解において2つの重要なタスクを構成し、特定の行動や出来事に対応する時間的セグメントを正確に特定することに焦点を当てている。
最近の進歩は、これらの2つのタスクを統合するためにモーメント検出を導入したが、既存のアプローチはクローズド・セットのシナリオに限られており、オープン・ワールド・コンテキストにおける適用性を制限している。
このギャップを埋めるために,オープンワールドのモーメント検出に適した,革新的なビデオ言語事前学習フレームワークであるGrounding-MDを提案する。
我々のフレームワークは、構造化されたプロンプト機構を通じて、任意の数のオープンな自然言語クエリを組み込んでおり、柔軟でスケーラブルなモーメント検出を可能にしている。
Grounding-MDはCross-Modality Fusion EncoderとText-Guided Fusion Decoderを利用して、包括的なビデオテキストアライメントを容易にし、効果的なクロスタスクコラボレーションを可能にする。
時間的行動検出とモーメント検索データセットの大規模事前トレーニングを通じて、Grounding-MDは、多種多様な複雑なクエリ条件を効果的に扱う、例外的なセマンティック表現学習能力を示す。
ActivityNet、THUMOS14、ActivityNet-Captions、Charades-STAを含む4つのベンチマークデータセットの総合的な評価は、Grounding-MDがゼロショットで新しい最先端のパフォーマンスを確立し、オープンワールドのモーメント検出シナリオで教師付き設定を確立していることを示している。
すべてのソースコードとトレーニングされたモデルがリリースされる。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection [19.595956464166548]
時間的行動検出(TAD)は、事前に定義されたアクションを検出することに焦点を当て、モーメント検索(MR)は、未トリミングビデオの中で、オープンな自然言語によって記述される事象を特定することを目的としている。
我々は,TADとMRの両方に対して統一モーメント検出(Unified Moment Detection, Unified Moment Detection, UniMD)と呼ばれる統一アーキテクチャを提案する。
TADのアクションやMRのイベントといった2つのタスクの入力を共通の埋め込み空間に変換し、2つの新しいクエリ依存デコーダを使用して、分類スコアと時間セグメントの均一な出力を生成する。
論文 参考訳(メタデータ) (2024-04-07T12:14:42Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。